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机 器 学 习 是 当前 解决 很 多 人 工 智 能 问题 的 核心 技术 ,深度 学 习 的 出 现 带 来 了 自 2012 年 以 来 的 人 工 智 
能 复兴 。 本 书 是 机 器 学 习 和 深度 学 习 领 域 的 入 门 与 提高 教材 ,系统 、 深 入 地 讲述 机 器 学 习 与 深度 学 习 的 主 
流 方法 与 理论 ,并 紧密 结合 工程 实践 与 应 用 。 全 书 由 21 章 组 成 , 共 分 为 三 大 部 分 。 第 1 一 3 章 为 第 一 部 
分 ,介绍 机 器 学 习 的 基本 原理 、 所 需 的 数学 知识 (包括 微 积分 、 线 性 代数 、 概 率 论 和 最 优化 方法 ), 以 及 机 器 
学 习 中 的 核心 概念 。 第 4 一 20 章 为 第 二 部 分 ,是 本 书 的 主体 ,介绍 各 种 常用 的 有 监督 学 习 算 法 、 无 监督 学 
习 算 法 、 半 监督 学 习 算法 和 强化 学 习 算法 。 对 于 每 种 算法 ,从 原理 与 推导 、 工 程 实现 和 实际 应 用 3 个 方面 
进行 介绍 ,对 于 大 多 数 算法 ,都 配 有 实验 程序 。 第 21 章 为 第 三 部 分 ,介绍 机 器 学 习 和 深度 学 习 算 法 实际 应 
用 时 面临 的 问题 ,并 给 出 典型 的 解决 方案 。 此 外 ,附录 A 给 出 各 种 机 器 学 习 算法 的 总 结 ,附录 B 给 出 梯度 
下 降 法 的 演化 关系 ,附录 C 给 出 EM 算法 的 推导 。 

本 书 理论 推导 与 证 明 详细 、 深 入 ,结构 清晰 ,详细 地 讲述 主要 算法 的 工程 实现 细节 , 配 以 著名 开源 库 的 
源 代码 分 析 ( 包 括 libsvm.liblinear.OpenCV „Caffe 等 开源 库 ) ,让 读者 不 仅 知 其 然 , 还 知 其 所 以 然 , 真 正 理解 
算法 ,学 会 使 用 算法 。 对 于 计算 机 、 人 工 智 能 及 相关 专业 的 本 科 生 和 研究 生 , 这 是 一 本 适合 入门 与 系统 学 
习 的 教材 ,对 于 从 事 人 工 智能 和 机 器 学 习 产 品 研 发 的 工程 技术 人 员 ,本 书 也 具有 很 强 的 参考 价值 。 
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近年 来 , 随 着 IBM 沃 森 、 谷 歌 DeepMind AlphaGo 等 新 型 人 机 系统 的 横 空 出 世 , 人 工 智 
能 日 益 受 到 全 社会 的 关注 ,媒体 报道 热度 空前 。 事 实 上 ,伴随 大 数据 、 深 度 学 习 、 智 能 芯片 等 
技术 的 成 熟 、 政 府 的 扶持 以 及 资本 的 持续 投入 ,一 方面 在 前 端 催生 了 刷 脸 支付 、 智 能 音箱 、 以 
图 搜 图 、 智 能 翻译 等 新 的 商业 场景 和 产品 ; 另 一 方面 ,在 后 端 , 人 工 智能 也 正 深刻 地 改变 着 既 
有 的 技术 模式 和 流程 。 例 如 ,在 端 对 端的 深度 神经 网 络 中 ,一 些 传统 的 特征 工程 模块 被 弱化 
乃至 取代 ;原本 基于 单 步 预测 的 个 性 化 推荐 引擎 被 强化 学 习 技术 改造 。 

放眼 世界 ,人 工 智能 正成 为 国际 竞争 的 新 焦点 。 英 国 、 美 国 、 新 加 坡 等 国家 也 各 自 提出 
了 推动 人 工 智能 相关 技术 与 产业 发 展 的 纲要 与 规划 。 美 国 国防 部 高 级 研究 计划 局 则 于 
2018 年 9 月 宣布 将 投入 20 亿美 元 开展 一 项 名 为 AI Next 的 计划 ,其 旨 在 加 速 人 工 智 能 研 
究 。MIT 则 计划 斥资 10 亿美 元 ,建设 新 的 计算 机 学 院 , 致 力 于 将 人 工 智能 技术 用 于 该 校 的 
所 有 研究 领域 。 在 国内 ,国务 院 于 2017 年 7 月 发 布 了 《国务 院 关 于 印发 新 一 代 人 工 智能 发 
展 规划 的 通知 》。 清华 大 学 、 上 海 交 通 大 学 、 南 京 大 学 等 国内 顶级 高 校 ,也 陆续 成 立 了 自己 的 
人 工 智 能 研究 院 。 在 工业 界 , 商 汤 、 旷 视 、 依 图 等 人 工 智能 独 角 兽 企业 ,也 带动 了 人 工 智 能 技 
术 在 国内 的 落地 与 发 展 。 

从 学 术 角 度 来 看 ,以 1956 年 达 特 其 斯 会 议 作 为 人 工 智能 学 科 公 认 的 起 点 ,60 多 年 的 沉 
浮 史 见证 了 多 次 起 伏 , 诞 生 了 多 个 思想 学 派 。 近 30 年 的 人 工 智能 发 展 , 在 作者 看 来 ,机 器 学 
习 ( 包 括 深度 学 习 ) 成 为 这 期 间 的 主流 思想 和 技术 。 支 持 向 量 机 、 随 机 森林 、 决 策 树 、 卷 积 神 
经 网 络 、 循 环 神经 网 络 , 生 成 对 抗 网 络 和 强化 学 习 等 方法 层出不穷 ,构成 了 当代 人 工 智 能 的 
华丽 篇 章 。 与 此 同时 ,大 量 机 器 学 习 开 源 框 架 和 成 型 工具 对 用 户 日 益 “ 友 好 ”。 初 学 者 往往 
不 需要 太 多 的 数学 基础 和 编程 能 力 , 简 单调 用 接口 即 可 完成 一 些 人 工 智 能 任务 。 这 些 条 件 
往往 可 以 快速 给 予 初学 者 信心 ,鼓励 更 多 人 才 进 入 人 工 智 能 相关 领域 ,推动 了 人 工 智 能 的 应 
用 。 同 时 ,一 些 从 业者 对 开源 软件 或 者 框架 的 过 度 依 赖 ,乃至 抱 着 一 种 不 求 甚 解 的 态度 ,不 
去 理解 和 掌握 主要 算法 和 模型 背后 的 原理 和 数学 基础 。 如 此 一 来 ,个 体 的 技术 发 展 潜力 受 
TR ,而 整个 行业 的 持续 发 展 也 将 缺乏 高 级 人 才 基 础 。 事 实 上 ,尽管 人 工 智 能 算法 工具 日 益 傻 
瓜 化 ,甚至 出 现 了 AutoML 这 样 的 自动 化 机 器 学 习 技术 ,然而 深刻 理解 算法 背后 的 机 理 , 面 
对 具体 问题 选择 合适 模型 训练 算法 和 超 参数 的 能 力 ,充分 体现 机 器 学 习 从 业者 的 创新 能 力 
和 解决 问题 的 能 力 。 事 实 上 ,一 定 程度 的 学 习 曲 线 , 也 意味 着 个 人 竞争 力 的 门槛 。 

本 人 全 面 阅读 了 雷 明 老师 的 作品 ,在 语言 精确 性 和 条 理性 、 内 容 全 面 性 和 完整 性 、 理 论 
深度 以 及 工程 实践 指导 方面 ,不 密 为 集 专业 性 与 通俗 性 为 一 体 的 上 乘 之 作 。 特 别 是 在 公式 























步 步 推导 的 细节 方面 ,有 非常 仔细 的 表述 ,给 人 一 种 踏实 的 感觉 。 我 相信 通过 本 书 , 读 者 将 
可 以 高 效 、 细 臻 .全面 地 掌握 机 器 学 习 的 主流 知识 点 和 整体 脉络 。 在 碰 到 具体 问题 时 ,本 书 
的 专业 内 容 也 方便 读者 进行 快速 查阅 和 巩固 。 

人 工 智 能 的 车 轮 滚滚 向 前 ,从 业 人 员 都 力图 赶 上 趋势 的 发 展 。 开 卷 有 益 , 希 望 本 书 能 够 
帮助 读者 打 好 机 器 学 习 的 内 功 基础 ,缓解 部 分 从 业者 内 心 的 焦虑 。 相 信 翻 看 此 书 时 的 获得 
感 和 充实 感 ,会 为 读者 留 下 一 段 美 好 的 回忆 。 


上 海 交 通 大 学 特别 研究 员 ” 严 骏 驰 
2018 年 11 H 24 РГА 
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自 2012 年 以 来 ,得 益 于 深度 学 习 技 术 的 迅猛 进步 ,人 工 智 能 无 论 是 在 学 术 界 还 是 在 产 
业界 都 迎 来 了 莲 孝 发 展 ,各 种 新 的 技术 与 算法 层出不穷 ,推动 机 器 学 习 技 术 大 规模 走向 应 
用 。 与 之 相对 应 的 是 优秀 教材 的 缺乏 ,由 于 技术 的 快速 进步 ,此 前 的 经 典 书籍 面临 内 容 老化 
的 问题 。 本 书 的 立意 是 帮助 人 工 智 能 相关 方向 的 在 校 学 生 与 工程 技术 人 员 更 好 地 理解 和 掌 
握 这 门 技术 , 书 的 原型 出 自 于 笔者 在 zmodo 公司 的 内 部 培训 讲义 ,在 同事 们 的 鼓励 下 ,最 终 
将 其 写成 这 本 书 。 

对 于 绝 大 多 数 从 事 学 术 研 究 与 产品 研发 的 读者 来 说 ,理解 算法 的 原理 与 掌握 算法 的 实 
现 及 应 用 是 同等 重要 的 事情 。 计 算 机 科学 (尤其 是 人 工 智 能 ) 是 偏 实践 的 学 科 , 研 究 这 些 算 
法 的 最 终 目 的 是 将 其 直接 投入 实际 应 用 。 因 此 ,本 书 从 理论 与 实践 两 个 方面 进行 讲解 ,让 读 
者 不 仅 能 够 理解 算法 的 原理 ,还 能 学 会 算法 的 实现 与 应 用 ,做 到 理论 与 实践 的 结合 。 

本 书 全 面 系统 地 讲解 目前 主要 的 机 器 学 习 算 法 ,包括 有 监督 学 习 算 法 、 无 监督 学 习 算 
法 、 半 监督 学 习 算法 和 强化 学 习 算 法 4 种 类 型 ,内 容 涵盖 当前 主流 的 机 器 学 习 和 深度 学 习 算 
法 。 对 于 主要 的 算法 ,从 理论 讲解 ,实验 程序 工程 实现 与 源 代码 分 析 、 实 际 应 用 4 部 分 进行 
讲解 。 对 于 核心 的 推导 和 证 明 , 笔 者 都 详细 给 出 。 

学 习 本 书 需 要 读者 具有 数学 (包括 微 积分 、 线 性 代数 、 概 率 论 等 本 科 数 学 知识 ) 与 编程 
(至 少 掌握 一 门 编程 语言 ) 的 基础 知识 ,部 分 算法 和 理论 会 用 到 离散 数学 、 数 据 结构 等 课程 的 
知识 ,但 数量 很 少 。 因 此 ,如 果 读 者 没有 学 过 这 两 门 课 , 对 于 理解 没有 大 碍 。 

对 于 深度 学 习 算 法 与 理论 ,本 书 做 了 重点 与 深入 的 介绍 。 对 于 卷 积 神经 网 络 、 循 环 神经 
网 络 等 应 用 最 广泛 的 方法 ,系统 地 介绍 了 它们 的 原理 与 实现 ,并 分 析 了 截至 2017 年 的 主要 
学 术 论 文 ,包括 基础 算法 与 应 用 ,保证 本 书 的 内 容 能 够 反映 学 术 界 与 工程 界 的 新 成 果 。 

本 书 提供 一 份 非常 精美 的 机 器 学 习 算 法 地 图 ,可 从 SIGAI 公众 号 或 清华 大 学 出 版 社 
(www. tup. com. cn) 下 载 。 

机 器 学 习 是 范围 极 广 、 内 容 庞杂 的 一 门 学 科 ,， 技 术 发 展 日 新 月 异 ,由 于 笔者 的 水 平 与 经 
验 有 限 , 书 中 难免 有 错误 与 理解 不 到 位 的 地 方 , 敬 请 读者 指正 ! 





т 明 
2018 年 10 月 


в z, 





第 一 部 分 ”基本 概念 与 数学 知识 


NEL 
1.1 e E To E 


.1.2 HANA T RLAR 
1.2 ”典型 应 用 <... 
语音 识别 … 
人 脸 检测 … 
人 机 对 弈 … 


See de re ee 
њ 0 ne 


a 





[02 43 5.7] КЕС 


2.1 微 积分 和 线性 代数 …… 
向 量 与 矩阵 …… 
偏 导数 与 梯度 …… 


CON о 0 £0 го к 


1 
1 
1 
1 
1 
Ls 
1 
1 
1 
1; 


го го го [о ю гю ю DO r> r> r 
© 












泰勒 展开 ee 
奇异 值 分 解 ee ee】 


© o — — mn ww w 





25 


2,3 


k: 

3 
x 
= 





.9 面临 的 问题 …… 


со ч 0 Ci & фо го кє 


1 随机 事件 与 概率 …… à 
3 LS RIP 
6 





BiG AIL [la] e MM ы esses A] 
最 大 似 然 估计 mmn 42 


3.1 


3.2 


w 


Жат 贝 叶 斯 分 类 器 - 


4.1 


考 文献 eese 





3.1.1 监督 信和 县 4 
3.1.2. 分 类 问题 与 回归 问题 … 
3.1.3. 判别 模型 与 生成 模型 … 
3.1.4 强化 学 习 сзсз; 

模型 评价 指标 ………… u 
3.2.1 精度 与 召回 率 …… - 48 







о о о 


бо об 


сл сл сл сл сл сл сл 
© 


rs 


第 二 部 分 “主要 的 机 器 学 习 算法 与 理论 








4.2 朴素 贝 叶 斯 分 类 器 .pp 58 
PE M dr TTC 
4.3.1 训练 算法 …… 
4.3.2 预测 算法 …… 












5.2 分 类 与 回归 树 … "m Е 

5.3 JM Hee 
5.3.1 递归 分 裂 过 程 …… ns p 
5.3.2 寻找 最 佳 分 烈 HH ТД 
5.3.4 属性 缺失 问题 … she kei 
5.3.5 剪 枝 算法 …… 










£ 
Ë 
Ë 
3 


an 


4 寻找 替代 分 裂 … s "T 
5 
6 


a 







变量 的 重要 性 …… 
预测 算法 …… 


naonna сл o 


л сл сл «сл o o 


第 6 章 大 近邻 算法 …… 
6. 1 基本 概念 es... ... 
6.3.1 常用 距离 定义 es 105 


~ 104 





А 
Á” ) 机 器 学 习 与 应 用 


参考 文献 110 


第 7 章 Е: s HH HH 111 
7.1.1 数据 降 维 问题 … eee eee eee ы ы ы н ы eee н ӨӨ 111 
7.1.2 计算 投影 矩阵 和 111 
7.1.3. А нне ТА 
7.1.4 ШШЕ eee 14 
7.2.3. 向 量 降 维 … 
7.2.4 向 量 重 构 … 

7.3 WUÉS ee 
7.3.1 局 部 线性 嵌入 … 
7.3.2. 拉 普 拉 斯 特征 映射 
7.3.3 局 部 保持 投影 … 
7.3.4 等 距 映 射 … 



















8.1 用 投影 进行 分 类 E 
8.2 投影 矩阵 TT m 125 
8.2.1 一 维 的 情况 1+ 125 
8.2.2 推广 到 高 维 - 127 
8.4.1. 主要 数据 结构 
8.4.2 计算 投影 矩阵 
8.4.3 向 量 投影 … 
8.4.4 向 量 重 构 … 



















e EDA SB SS DL usa ОК КК arts 


9.1 


9.7 


第 10 章 
10.1 


9.1.1 神经 元 


9.2.1 一 个 简单 的 例子 … 
9.2.2 完整 的 算法 … 

实验 程序 ， 
理论 解释 ……… 
9.4.1 数学 性 质 … 


9.4.2 与 神经 系统 的 关系 


面临 的 问题 + 


€ 


网 结 规模 … 


ю юр рю р р e e e 
оо о 070 0 02 о 


* 182 
+ 182 


10.1.1 线性 分 类 器 概述 : a 
10.1.2- ЭЕ теа ан ИННАА е аА 

















* 152 
• 152 
+ 153 
(e 153 
* 156 
© 156 
* 156 
© 156 
* 156 
+ 157 
+ 157 
人 
-179 
- 180 


153 
154 
154 
154 
154 


155 


163 
164 
177 


182 


182 


А 
10 лй#зншт 


10.2 ЖЕ ALB n mH HH 183 
10. 2. аж 
10.2.2 Ж рее ннн 184 

10.3 ЖЕ п BIRD HH 187 
10:3, Ж 
10.3.2 HE emm ненна 187 
10.5.1 求解 子 问题 … - 193 
10.5.2 ”优化 变量 的 选择 : - 196 

10.6 多 分 类 问题 … ， 197 

: 198 

源 代 码 分 析 ……… ы 








РЕ 
© 
ge 
Ж 


11.1 logistic 回归 225 
11.2 正则 化 logistic 回归 28 
11.2.2 L2 正 则 化 原 问题 … 
11.2.3 L2 正 则 化 对 偶 问题 - 
11.2.4 LIl 正 则 化 原 问题 … E 
11.2.5 实验 程序 ……… +. 234 
11.3 线性 支持 向 量 机 … E 
11. L2 正则 化 L1-loss SVC 原 问题 ee HH 236 
11, L2 正则 化 L2-loss SVC 原 问 题 не 237 
11. L2 正则 化 SVC 对 偶 间 题 енне 237 
11. ІЛ 正则 化 L2-loss SVC 原 问 题 eH HH 238 
11. ЖЮ TEE EHL cee 038 
11.4.1 求解 的 问题 2241 
11.4.2 主要 数据 结构 EE 
11.4.3 求解 器 … 
11.5 softmax 回归 ee 262 







oO 0c ж оо го к 






11, 


12.1.2 Bagging 算法 ee 


12, 


第 13 章 Boosting 算法 AR 
AdaBoost 算法 简介 eee 上 【上 【i 


13, 


an fF оо м 


1 
2 
.3 
4 
5 


6 


1 


on 


ША EE 
参考 文献 


UE S 3 E 
变量 的 重要 性 … 
实验 程序 ……… 
源 代码 分 析 … 
12.6.1 主要 数据 结构 


da 
EE l T a анааан E наа 
Te 


各 种 AdaBoost 算法 ……… 
13. 5.1 离散 型 AdaBoost - 
13.5.2 实数 型 AdaBoost - 
13.5.3  LogitBoost =+» 


13.5.4 Gentle Æ AdaBoost - eL 
实验 程序 和 
Н> 


13.8.3 强 分 类 器 … 
应 用 一 一 目标 检测 … 



















266 





А 
12 BSH 


fe 7 Tea RUM Bes eue ws sa ca eau tenues vo vances css vetat o anu etant 
PL Ly  2ch i cT 
db ннан инана аара налева л ад: 
进展 与 典型 应 用 … 


14. 1 


14. 2 
14. 3 


14. 4 


14. 


14. 


参考 文献 … 


第 15 €& 卷 积 神经 网 络 ИИН 
Wig dl ge HMM 
ЕЕЕ 


15.1 


15.2 


15. 


15. 


训 


1.1 


1 


Oo л њ оо м 


4.1 
4.2 
4.3 
4.4 
4.5 


wc ел cw сл 
л ж ооо го к 


1.1 
1.2 


练 算法 … 


5.2.1 


„2.2 
.2.3 
.2.4 


13.9.2 ”模型 训练 … mcr 
参考 文献 … —— 


计算 机 视觉 
语音 识别 …… 
自然 语言 处 理 
计算 机 图 形 学 
er 


oe 
14. 
14. 
14. 
14. 
14. 


训练 算法 … 
深度 玻 尔 效 曼 


深度 置信 网 


池 化 层 …… 


15.1.3 全 连接 层 … 


池 化 层 ……… 


随机 梯度 下 降 法 : - 









E EE DULL PM E ИНН ү 
4-5. D Н О СУСЫН 
BB BEBE Т ООП 
DES DL I € 
受 限 玻 尔 效 曼 机 












15.3 


风光 
15.3.2 tn enn tne et nen een ын р 
15.3.3 VGG 网 络 oo 
15.3.4 GoogLeNet 网 络 ee 


理论 分 析 … 


15.4.2 гое ИНИНИ ИИ 


weit 


网 络 结 
.6 批量 归 一 ке 
实际 例子 …………: 
15. 6.1 LeNet-5 网 络 … 
15.6.2 训练 自己 的 模型 … 
源 代 码 分 析 … 

15,7. Caffe un 


л m «а «л «л «л 












ene 


1 
2 

3 

4 

5 神经 元 层 … 
6 内 积 层 … 

7 ис 

8 

9 求解 器 … 
应 用 一 一 计算 机 视觉 … 


通用 目标 检测 … 
人 脸 关 键 点 定位 … 
人 脸 识 别 …… 





a a a eee a Wa nee 


5 


AUS Fi] 和 


DEG BEEN 
А Е HEEL 
Ера 


1 
2 
3 
4 eee eee hh hh hh ИРЕР ЕРГЕ РИИ 9556 
6 
7 
8 


А 


А 
14 RESISER 


15.9.1 几何 模型 438 

15. 10.1 Peleas 

15.10.2 机 器 翻译 
参考 文献 … ш 





16.1 网 络 结构 :50 
16.2.1 一 个 简单 的 例子 453 
16.2.9 完整 的 算法 … eases ж ж же жн с ннен o зз 455 
16.3.2 长 短期 记忆 模型 ai 
16.3.3 MRA. 
16. 3.4 双向 网 络 … 
16.4 序列 预测 问题 … 
16.4.1 序列 标注 问题 … e 
16.4.3 ЛЕЯ] 2) nee MM eee eee eee eee cee eee eee tee eee eee eee 465 
16.5 ЛД TE И cee ee eee eee cee cee eee cee cee eee eee ы cee 107 
1 语音 识别 间 题 67 
2 [A UH IAE eM HHHHHHHHH 468 
3 高 斯 混合 模型 … tee tee HH HH HH Henne 474 
4 
5 









16.6 应 用 一 一 自然 语言 处 理 
16.6.1 中 文 分 词 
16.6.2 词性 标注 480 






16.7 


16.6.3 命名 实体 识别 … 


16.6.4 RABE 


第 17 章 生成 对 抗 网 络 - 


17,1 
17.2 


17.3 


17.4 


随机 数据 生成 … 
生成 对 抗 网 络 简介 


ПА 1 
j Di T н cere ер cater ына ны Ыы асыры а иер аны 
D ESDUPIL SED ы ЫЫ 
17.3.9 M NE HE oer eren erit er yov ave see asp SU SHE SEES А А EY YN EY 
ОНЫ rei нынын strike E E E ОАА 
17.4.1 a ы. 


э 


第 18 章 聚 类 算法 … 


1 
2 
18.3 
4 
5 


2o 
= Pó 
з оф 


18.8 


问题 定义 … 
层次 聚 类 … 
基于 质心 的 算法 … 


ОЕК С 
18.5.2 OPTICS 算法 > 
18.5.3 Mean Shift 算法 


基于 图 的 算法 … 
算法 评价 指标 … 


INE T. Lm 


18.7.2 外 部 指标 
应 用 … 













aaaaaaaaaaaaaa 


会 


~ 494 


> 
К 





ооо бо бо чо = 


А 
16; RBTU5ER 


19.1 


3 
4 
19.5 
6 


IR ER Bu HH 521 
ARICI e HH HH nnne 522 
10:8 PAN pa УО О Л ОО О О uei eatis BRE 
生成 模型 ………… 
低 密度 分 割 …… 
基于 图 的 算法 …… 
半 监 督 深度 学 习 … 









20. 1 


20. 2 


20. 3 


20. 4 


20. 5 


20.6 


{РЁ ЗД | | 527 
20.1.1 间 题 定义 527 
20.1.2 Wn KU HERD Bib eH 528 
20.2.1 0, 990 
20.2.2 f EE ARE nnne аны 994 
20.3.1  fuEfüfpe mene 535 
20.3.4 蒙特 卡 洛 控制 …………- 

时 序 差 分 学 习 ………: 
20.4.1 Sarsa 算法 
20.4.2 Q 学 习 …… 
PR BEBE AME О 









第 三 部 分 “工程 实践 问题 


第 21 章 工程 实践 问题 概述 ————————— 
21.1 ЗЕ APT [a] BE HH HH 
EE Clo. ТК ГТ 

RAE 1 СТ REO E 
24:09 cq gI IRR иии 

21.3 ”实现 成 本 问题 ee 


21.3.1 训练 样本 量 …- 
21.3.2 计算 与 存储 成 本 
21.4 ”深度 模型 优化 ……………… 
21.4.1 剪 枝 与 编码 
21.4.2 二 值 化 网 络 


PSE WE E DIE I SIEGE AY AG E E 


ЮВ ТЕЕ ВОДИ ЗЕ H (ШЕ 15 BE) eM 


附录 C EM 算法 的 推导 ( 见 第 18 ж) 







сл 
© < сл сл Ф Ф сл сл сл m сл 
Ñ 00 30 3 0 © ә «л Q G to 


@ сл сл сл сл сл сл сл сл c o 


o 
©з 


569 


… 570 





第 一 部 分 介绍 机 器 学 习 的 基本 概念 与 机 器 学 习 所 需 的 数学 知识 。 第 1 章 将 
介绍 机 器 学 习 的 起 源 、 解 决 问题 的 思路 、 发 展 历史 和 典型 的 应 用 。 为 了 让 读者 
更 好 地 理解 书 中 算法 的 推导 , 在 第 2 章 会 全 面 地 讲述 机 器 学 习 中 所 需 的 数学 知 
识 ,包括 微 积 分 、 线 性 代数 、 概 率 论 、 最 优化 方法 。 另外 ,机 器 学 习 中 常用 的 核 
心 概念 ,包括 算法 的 分 类 、 评 价 指标 、 模 型 选择 中 的 核心 问题 (如 过 拟 合 、 偏 差 
与 方差 等 概念 ) 会 在 第 3 章 介绍 。 作为 实例 ,第 3 章 会 讲解 线性 回归 和 上 岭 回 归 
算法 。 


第 1 
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机 器 学 习 简介 


机 器 学 习 是 当前 解决 人 工 智 能 问题 的 主要 技术 ,在 整个 人 工 智 能 体系 中 处 于 基础 与 核 
心地 位 。 本 章 通过 一 个 简单 例子 引入 机 器 学 习 的 概念 ,并 解释 为 什么 需要 这 种 技术 。 机 器 
学 习 在 越 来 越 多 的 领域 有 成 功 的 应 用 ,本 章 选 取 有 代表 性 的 应 用 进行 介绍 。 最 后 介绍 机 器 
学 习 的 发 展 历史 与 当前 进展 。 


1.1 机 器 学 习 是 什么 


机 器 学 习 是 现 阶段 实现 人 工 智 能 应 用 的 主要 方法 , 它 广 泛 地 应 用 于 机 器 视觉 .语音 识 
别 .自然 语言 处 理 .数据 挖掘 等 领域 。 接 下 来 将 用 一 个 简单 的 例子 引入 机 器 学 习 的 概念 , 介 
绍 这 种 方法 解决 应 用 问题 的 一 般 思路 。 


1.1.1 一 个 简单 的 例子 


考虑 这 样 一 个 问题 ; 怎样 用 算法 来 判断 一 个 水 果 是 樱桃 还 是 猕猴 桃 ? 在 回答 这 个 问题 
之 前 , 先 看 人 是 怎么 做 的 。 人 们 在 识别 这 两 种 水 果 时 使 用 了 有 区 分 度 的 特征 : 第 一 个 典型 
特征 是 质量 ,猕猴 桃 比 樱桃 的 质量 大 ;第 二 个 典型 特征 是 颜色 ,樱桃 一 般 是 红色 ,猕猴 桃 是 绿 
灰色 。 这 些 特 征 是 人 们 从 生活 经 验 中 学 习 总 结 出 的 知识 ,而 不 是 与 生 俱 来 的 。 

上 面 的 方法 启示 我 们 ,计算 机 算法 也 可 以 用 类 似 的 手段 来 解决 此 问题 。 我 们 可 以 采集 
一 些 猕 猴 桃 和 楼 桃 ,在 这 里 称 它们 为 训练 样本 ,测量 这 些 样本 的 质量 和 颜色 ,然后 将 水 果 面 
在 二 维 平面 上 ,得 到 如 图 1. 1 所 示 的 图 像 。 

质量 和 颜色 是 区 分 两 种 水 果 的 有 用 信息 ,组 合 在 一 起 形成 二 维 的 特征 向 量 。 这 些 特征 
向 量 是 二 维 空间 中 的 点 , 横 坐 标 x 代表 质量 , 纵 坐标 y 代表 颜色 。 每 测量 一 个 水 果 , 就 得 到 
一 个 二 维 空间 的 点 。 

将 这 些 点 描绘 在 二 维 平面 上 可 发 现 : 猕猴 桃 在 第 一 象限 的 右 下 方 ,楼 桃 在 左上 方 。 利 
用 这 一 规律 ,可 以 在 平面 上 找到 一 条 直线 ,把 平面 分 成 两 部 分 , 落 在 第 一 部 分 的 点 判定 为 楼 
桃 , 落 在 第 二 部 分 的 点 判定 为 猕猴 桃 。 这 种 做 法 如 图 1.2 Bros. 

假设 找到 一 条 直线 , 它 的 方程 为 








ar 十 by 十 c 一 0 
位 于 直线 上 方 的 所 有 点 判定 为 樱桃 , 落 在 下 方 的 判定 为 猕猴 桃 。 在 直线 上 方 的 点 满足 
ar+by+c< 0 





直线 下 方 的 点 满足 
ar+by+c> 0 
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图 1.1 用 于 区 分 樱桃 和 猕猴 桃 的 特征 图 1.2 用 直线 将 两 类 水 果 分 开 
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给 两 类 水 果 进 行 编号 PARE Tal as Ж. fE x tB ЖЕМЕ Жк Ж 2 — 1, pis BER 28 n 56 
为 十 1。 上 面 的 判定 规则 可 以 写成 决策 函数 : 
Fay) = Г. ax+by+c>0 
—1, ах Ббу +с<0 
现在 的 问题 是 怎样 找到 这 条 直线 , 即 确定 参数 a.b 和 * 的 值 。 采 集 大 量 的 水 果 样 本 , 测 
量 它们 的 质量 和 颜色 ,形成 平面 上 的 一 系列 点 。 如 果 能 够 通过 某 种 方法 找到 一 条 直线 ,保证 
这 些 点 能 够 被 正确 分 类 ,那么 就 可 以 用 它 来 对 新 来 的 水 果 进 行 判定 。 通 过 这 些 样 本 寻找 分 
类 直线 的 过 程 就 是 机 器 学 习 的 训练 过 程 。 由 于 要 判断 一 个 物体 所 属 的 类 别 , 上 面 的 问题 被 
称 为 分 类 问题 。 根 据 之 前 的 表述 ,可 以 得 到 预测 水 果 类 别 的 函数 为 
sgn(ax + by + c) 
其 中 ,sgn 是 符号 函数 ,定义 为 
+1 r0 
—1, 2<0 
在 后 面 的 各 种 机 器 学 习 算 法 中 会 经 常用 到 此 函数 。 上 面 的 例子 有 一 个 特点 : 需要 用 样 
本 数据 进行 学 习 , 得 到 一 个 函数 (或 者 称 为 模型 ) ,然后 用 这 个 模型 对 新 来 的 样本 进行 预测 。 
机 器 学 习 任 务 的 一 般 流 程 如 图 1.3 所 示 。 


sgn(Z) = 














训练 样本 | oo) 模型 с) | ”预测 结果 


























1.3 机 器 学 习 任务 的 一 般 流程 


图 1.3 是 有 监督 学 习 的 一 般 流程 ,还 有 一 些 机 器 学 习 算 法 没有 这 个 训练 过 程 , 如 聚 类 和 
数据 降 维 ,我 们 将 在 第 3 章 中 介绍 。 机 器 学 习 算 法 和 其 他 算法 的 一 个 显著 区 别 是 需要 样本 
数据 ,是 一 种 数据 驱动 的 方法 。 

机 器 学 习 (Machine Learning) 是 人 工 智能 的 分 支 和 一 种 实现 方法 . 它 根据 样本 数据 学 
习 模 型 ,用 模型 对 数据 进行 预测 与 决策 ,也 称 为 推理 (inference)。 在 上 面 的 例子 中 ,预测 就 
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是 对 水 果 的 类 型 做 出 判断 。 机 器 学 习 是 让 计算 机 算法 具有 类 似 人 的 学 习 能 力 , 像 人 一 样 能 
够 从 实例 中 学 到 经 验 和 知识 ,从 而 具备 判断 和 预测 的 能 力 。 这 里 的 实例 可 以 是 图 像 、 声 音 ， 
也 可 以 是 数字 、 文 字 。 

机 器 学 习 的 本 质 是 模型 的 选择 以 及 模型 参数 的 确定 。 抽 象 来 看 ,在 大 多 数 情况 下 机 器 
学 习 算 法 是 要 确定 一 个 映射 函数 三 以 及 函数 的 参数 0 ,建立 如 下 映射 关系 : 

у = f(x;0) 

其 中 ,x 为 函数 的 输入 值 ,一 般 是 一 个 向 量 ;y 为 函数 的 输出 值 ,是 一 个 向 量 或 标量 。 当 映射 
函数 和 它 的 参数 确定 之 后 ,给 定 一 个 输入 就 可 以 产生 一 个 输出 。 

映射 函数 的 选择 并 没有 特定 的 限制 。 在 上 面 的 例子 中 我 们 使 用 了 最 简单 的 线性 函数 ; 
一 般 地 ,需要 根据 问题 和 数据 的 特点 选择 合适 的 函数 。 用 映射 函数 的 输出 值 可 以 实现 人 们 
需要 的 推理 或 决策 ,例如 ,判断 邮件 是 否 为 垃圾 邮件 ,判断 病人 是 阳性 还 是 阴性 ,预测 股票 的 
价格 。 


1.1.2 为 什么 需要 机 器 学 习 


计算 机 发 明之 初 的 目的 是 解决 大 规模 数学 计算 问题 ,后 来 被 用 于 各 种 领域 ,包括 数据 存 
储 、 联 网 、 更 复杂 的 数学 和 非 数学 计算 。 对 于 人 们 要 解决 的 很 多 实际 问题 ,计算 机 程序 都 取 
得 了 远 超过 人 类 的 成 绩 。 当 前 智能 手机 的 运算 能 力 已 经 达到 每 秒 上 亿 条 指令 ,而 人 每 秒 进 
行 的 加 减法 运算 一 般 不 会 超过 10 次 。 在 使 用 导航 软件 时 ,任意 给 定 出 发 地 点 和 目的 地 , 程 
序 可 以 很 快 计算 出 最 优 路 线 , 这 也 远 强 于 人 类 。 表 1. 1 是 计算 机 程序 处 理 各 种 典型 问题 的 
能 力 。 


表 1.1 计算 机 程序 处 理 各 种 典型 问题 的 能 力 






































ij = 5 法 解决 时 间 

算术 运算 CPU 指令 1945 年 

大 规模 线性 方程 组 Krylov 子 空间 迭代 1950 年 

大 型 矩阵 的 特征 值 问题 QR 算法 1959 年 

海量 数据 的 排序 快速 排序 算法 1962 年 

寻找 地 图 上 两 点 间 最 短路 径 Dijkstra 算法 1959 年 

存储 并 管理 大 规模 数据 关系 型 数据 库 系统 1970 年 

数学 公式 推导 符号 计算 20 世纪 70 年 代 
大 规模 信息 检索 搜索 引擎 20 世纪 90 年 代 
感知 问题 一 一 听觉 机 器 学 习 还 未 解决 
感知 问题 一 一 视觉 机 器 学 习 还 未 解决 
理解 人 类 语言 机 器 学 习 还 未 解决 

创作 ,如 诗歌 和 音乐 机 器 学 习 还 未 解决 








从 表 1. 1 中 可 以 发 现 一 个 规律 : 有 确定 的 逻辑 与 数学 模型 的 问题 得 到 很 好 的 解决 ,并 
且 计算 机 算法 的 处 理 能 力 远 强 于 人 类 ;而 那些 到 目前 为 止 还 无 法 用 数学 或 逻辑 模型 准确 描 
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述 的 问题 ,如 识别 图 像 . 感 情 、 创 作 问 题 ,计算 机 程序 目前 的 处 理 能 力 一 般 不 如 人 类 。 这 些 难 
以 处 理 的 问题 ,大 多 是 当前 人 工 智 能 要 解决 的 核心 问题 。 对 于 图 像 和 语音 理解 之 类 的 问题 ， 
我 们 应 该 用 什么 方法 来 解决 ?机 器 学 习 是 当前 处 理 这 类 问题 的 有 力 工具 。 

在 20 世纪 80 年 代 之 前 ,人 工 智 能 技术 解决 各 类 问题 的 主流 方法 是 逻辑 推理 .知识 工程 
与 专家 系统 ,它们 为 人 类 的 知识 建立 规则 库 ,依靠 规则 库 进 行 推断 与 决策 以 实现 智能 。 以 垃 
圾 邮件 过 滤 为 例 ,其 目标 是 确定 一 封 邮 件 是 否 为 垃圾 邮件 。 如 果 使 用 人 工 规则 的 方法 ,最 简 
单 的 是 设 定 一 些 关 键 词 ,它们 是 垃圾 邮件 中 经 常 出 现 的 词 ,例如 

RR 
代 开 
代购 
酒店 
折扣 
特价 

如 果 一 封 邮件 中 出 现 这些 关 键 词 则 认为 是 垃圾 邮件 ;更 复杂 的 做 法 是 给 每 个 关键 词 一 
个 分 数值 ,对 于 一 封 邮件 ,把 所 有 关键 词 的 分 数 累 加 起 来 ,如 果 超 过 一 个 指定 的 值 , 则 认为 是 
垃圾 邮件 。 

这 种 方法 存在 严重 的 问题 。 它 高 度 依赖 人 对 具体 问题 的 专业 知识 ,而 且 通 用 性 差 , 人 们 
需要 对 每 个 问题 建立 精细 的 规则 ,这 并 不 是 一 件 容易 的 事情 。 对 于 图 像 .语音 识别 等 认 知 类 
问题 ,由 于 图 像 与 语音 信号 的 变化 与 多 样 性 ,复杂 性 ,人 们 无 法 给 出 一 个 精确 的 描述 规则 。 
这 种 方法 在 处 理 模 式 识别 等 复杂 问题 时 无 能 为 力 。 

以 图 像 识别 为 例 , 假 如 要 判断 一 张 图 像 是 不 是 猫 , 最 简单 的 做 法 是 穷 举 , 即 列举 图 像 所 
有 可 能 的 情况 ,然后 建立 一 个 规则 库 , 对 每 种 可 能 的 图 像 取 值 ,将 它 标 记 为 猫 或 者 非 猫 。 假 
如 图 像 的 宽 和 高 都 是 512 像素 ,图 像 是 灰 度 图 ,每 个 像素 的 取 值 范围 是 0 一 255 的 整数 。 根 
据 排列 组 合 的 原理 ,所 有 可 能 的 图 像 数 有 

25 6512x512 — 25626244 

这 是 一 个 天 文 数字 ,要 对 如 此 海量 的 情况 建立 一 个 规则 库 显然 是 不 现实 的 。 人 们 目前 
还 无 法 为 “ 猫 * 这 个 概念 建立 一 个 精确 的 数学 模型 ,需要 考虑 其 他 途径 来 解决 此 问题 。 

从 20 世纪 80 年 代 开始 ,机 器 学 习 逐 渐 成 为 解决 人 工 智 能 问题 的 主流 方法 。 人 的 很 多 
智能 是 通过 先天 进化 遗传 .后 天 学 习 训 练 得 到 的 .人 们 对 图 像 、 声 音 、 语 言 . 动 作 和 行为 的 识 
别 与 理解 都 是 一 个 学 习 与 认 知 的 过 程 ,从 日 常生 活 中 得 到 各 种 事物 的 知识 ,之 后 大 脑 根据 这 
些 知识 对 图 像 和 声音 进行 识别 。 

新 生 儿 刚 出 生 的 时 候 没 有 视觉 和 听觉 认 知 能 力 ， 
在 成 长 的 过 程 中 .宝宝 从 外 界 环境 不 断 得 到 信息 ,对 
大 脑 形成 刺激 ,从 而 建立 起 认 知 能 力 。 要 给 孩子 建立 
“SEL E E" RETE DORE B il eH RITTE 3-45 fb, 
看 很 多 苹果 香蕉 的 实例 或 者 图 片 ( 识 图 卡 , 见 图 1. 4)， 
并 反复 地 告诉 他 这 些 水 果 的 名 字 。 经 过 长 期 训练 之 
后 ,最 后 在 孩子 的 大 脑 中 形成 了 “苹果 ”” 香 樵 ”这些 抽 
图 1.4 识 图 卡 象 概念 和 知识 ,以 后 他 就 可 以 将 这 些 概念 运用 于 眼睛 
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与 其 总 结 知识 告诉 人 工 智 能 ,还 不 如 让 人 工 智 能 自己 去 学 习 知 识 。 要 识别 猫 的 图 像 ,可 
以 采集 大 量 图 像样 本 ,其 中 一 类 样本 图 像 为 猫 ( 正 样本 ) ,其 他 样本 不 是 猫 ( 负 样 本 )。 然 后 把 
这 些 标明 了 类 别 的 图 像 送 入 机 器 学 习 程 序 中 进行 训练 。 训 练 完成 之 后 得 到 一 个 模型 ,之 后 
就 可 以 根据 这 个 模型 来 判断 图 像 是 不 是 猫 了 。 对 声音 识别 和 其 他 很 多 问题 也 可 以 用 这 样 的 
方法 。 在 这 里 ,判断 图 像 是 否 为 猫 的 模型 是 机 器 学 习 程 序 自 己 建 立 起 来 的 ,而 不 是 人 工 设 定 
的 。 显 然 这 种 方法 具有 通用 性 ,如 果 我 们 把 训练 样本 换 成 狗 的 图 像 ,就 可 以 识别 狗 。 

机 器 学 习 与 之 前 基于 人 工 规 则 的 模型 相 比 ,无 顷 人 工 给 出 规则 ,而 是 让 程序 自动 从 大 量 
的 样本 中 抽象 ,归纳 出 知识 与 规则 。 因 此 , 它 具 有 更 好 的 通用 性 ,采用 这 种 统一 的 处 理 框架 ， 
人 们 可 以 将 机 器 学 习 算法 用 于 各 种 不 同 的 领域 。 





1.2 典型 应 用 


机 器 学 习 有 广泛 的 用 途 , 从 机 器 视觉 到 自然 语言 处 理 . 语 音 识 别 .数据 挖掘 领域 都 有 它 
的 应 用 。 这 些 应 用 在 日 常生 活 中 随处 可 见 , 例 如 ,停车 场 出 入口 的 车 牌 识别 ,语音 输入 法 ,人 
脸 识别 , 电 商 网 站 的 商品 推荐 ,新 闻 推 荐 等 。 接 下 来 简单 介绍 一 些 常 见 的 应 用 ,部 分 应 用 的 
详细 技术 在 本 书 的 后 续 章节 中 进行 介绍 。 

与 机 器 学 习 密切 相关 的 一 个 领域 是 模式 识别 , 它 要 解决 的 是 对 声音 .图像 以 及 其 他 类 型 
的 数据 对 象 的 识别 问题 ,机 器 学 习 是 解决 这 类 问题 的 一 种 工具 。 

另 一 个 与 机 器 学 习 密 切 相 关 的 领域 是 机 器 视觉 (Computer Vision) , 它 用 硬件 设备 和 计 
算 机 程序 实现 人 的 视觉 功能 ,包括 图 像 的 理解 ,空间 三 维 信息 的 获取 、 对 运动 的 感知 等 问题 。 
视觉 在 日 常 信息 的 获取 中 占据 主导 地 位 ,人 们 每 天 接收 到 的 信息 80% 以 上 来 自视 觉 。 

对 声音 的 感知 是 男 一 大 感知 功能 , 它 是 仅 次 于 视觉 的 第 二 大 信息 来 源 。 在 各 种 声音 中 ， 
对 人 说 话 声音 的 理解 处 于 主导 地 位 , 它 将 说 话 声 转换 成 文字 ,用 计算 机 程序 实现 这 一 功能 的 
方法 称 为 语音 识别 (Automatic Speech Recognition. ASR)。 还 有 对 文字 的 理解 ,实现 这 种 
功能 的 技术 称 为 自然 语言 处 理 (Natural Language Processing. М.Р). 

此 外 ,机 器 学 习 在 数据 挖掘 和 分 析 中 也 得 到 应 用 ,例如 ,商品 推荐 ,搜索 引擎 中 的 网 页 排 
序 、 用 户 行为 的 分 析 与 建 模 等 。 


1.2.1 语音 识别 


语音 识别 的 目标 是 理解 人 说 话 的 声音 信号 ,将 它 转 化 成 文字 ,这 是 听觉 系统 的 核心 功 
能 。 语 音 识 别 算法 是 语音 输入 法 、 人 机 对 话 系 统 等 应 用 的 关键 技术 ,具有 很 强 的 应 用 价值 ， 
是 模式 识别 领域 被 深入 广泛 研究 的 问题 之 一 。 

一 段 语音 信号 的 波形 如 图 1.5 所 示 。 

语音 识别 要 将 声音 信号 转换 成 某 种 语言 的 文字 ,声音 信号 是 一 个 时 间 序 列 数据 ,在 每 个 
时 刻 有 一 个 值 。 早 期 的 语音 识别 算法 一 般 通 过 模板 匹配 实现 ,这 和 图 像 文字 识别 类 似 。 机 
器 学 习作 为 蔡 代 模板 匹配 技术 的 方案 为 语音 识别 提供 了 更 灵活 、 通 用 和 更 高 精度 的 解决 方 
案 。 在 采用 机 器 学 习 的 算法 中 ,一 种 有 力 的 建 模 工具 是 隐 马 尔 可 夫 模 型 (Hidden Markov 
Model, HMM) , 它 和 高 斯 混合 模型 (Gaussian Mixture Model. GMM) 结 合 , 形 成 了 GMM- 
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图 1.5 一 段 语音 信号 的 波形 


HMM 框架 ,在 很 长 一 段 时 间 内 ,这 是 语音 识别 的 经 典 算法 。 

虽然 人 工 神经 网 络 在 很 早 以 前 就 被 用 于 语音 识别 问题 ,但 受 网 络 规 模 、 训 练 样本 数 以 及 
计算 能 力 、 算 法 本 身 存 在 的 问题 等 因素 的 限制 ,并 没有 显示 出 比 GMM-HMM 框架 有 更 大 
的 优势 。 深 度 学 习 技 术 出 现 之 后 ,使 用 循环 神经 网 络 和 端 到 端 结构 (如 CTC, 连 接 主 义 时 序 
分 类 ) 的 方法 "J 成 为 主流 ,大 幅度 提升 了 语音 识别 的 准确 率 ,使 得 语音 识别 技术 真正 走向 
实用 。 第 16 章 将 详细 介绍 语音 识别 算法 的 原理 。 


122 人 脸 检测 


人 脸 检 测 的 目标 是 找 出 图 像 中 所 有 的 人 脸 ,确定 它们 的 大 小 和 位 置 ,算法 的 输出 是 人 脸 
外 接 矩 形 的 坐标 和 大 小 ,可 能 还 包括 姿态 (如 倾斜 角度 等 信息 )。 人 脸 检 测 是 机 器 视觉 领域 
被 深入 研究 的 经 典 问题 ,在 安防 监控 、 人 机 交互 ,社交 等 领域 都 有 重要 的 应 用 价值 。 数 码 相 
机 、 智 能 手机 上 已 经 使 用 人 脸 检测 技术 实现 成 像 时 对 人 脸 的 对 焦 。 与 人 脸 检 测 密切 相关 的 
一 个 概念 是 人 脸 识别 , 它 的 目标 是 确定 一 个 人 脸 图 像 的 身份 , 即 是 哪个 人 。 人 脸 检 测 是 整个 
人 脸 识 别 算法 的 第 一 步 , 要 判断 一 个 人 脸 图 像 的 身份 ,首先 要 确定 人 脸 在 图 像 中 的 位 置 。 人 
脸 识别 的 概念 在 第 8 章 介 绍 。 

虽然 人 脸 的 结构 是 确定 的 ,由 眉毛 ,眼睛 、 锚 子 和 嘴 等 部 位 组 成 ,近似 是 一 个 刚体 ,但 由 
于 姿态 和 表情 的 变化 ,由 于 不 同人 的 外 观 差异 和 光照 
的 影响 ,准确 地 检测 处 于 各 种 条 件 下 的 人 脸 是 一 件 困 
难 的 事情 。 图 1.6 是 人 脸 检测 的 结果 ,矩形 框 是 检测 
出 的 人 脸 。 

人 脸 检 测算 法 要 解决 以 下 几 个 核心 问题 。 

(1) 人 脸 可 能 出 现在 图 像 中 的 任何 一 个 位 置 。 

(2) 人 脸 可 能 有 不 同 的 大 小 。 

(3) 人 脸 在 图 像 中 可 能 有 不 同 的 视角 和 姿态 。 

早期 的 人 脸 检测 算法 使 用 模板 匹配 技术 , 即 用 一 
个 人 脸 模 板 图 像 与 被 检测 图 像 中 的 各 个 位 置 进行 匹 
配 , 确 定 这 个 位 置 处 是 否 有 人 脸 。 此 后 机 器 学 习 算 法 图 1.6 人 脸 检测 的 结果 
被 用 于 该 问题 ,包括 神经 网 络 、 支 持 向 量 机 等 。2001 
年 ,Viola 和 Jones 设计 了 一 种 使 用 简单 Haar 型 特征 和 级 联 AdaBoost 分 类 器 的 算法 50 ， 
在 保证 高 精度 的 前 提 下 具有 实时 的 检测 速度 .是 人 脸 检测 领域 最 具 里 程 碑 意义 的 成 果 
es 
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经 典 的 人 脸 检测 算法 流程 是 这 样 的 : 先 用 大 量 的 人 脸 和 非 人 脸 样 本 图 像 进行 训练 ,得 
到 一 个 解决 二 分 类 问题 的 分 类 器 , 称 为 人 脸 检 测 模板 。 这 个 分 类 器 接受 固定 大 小 的 输入 图 
片 , 判 断 输入 图 片 是 否 为 人 脸 , 即 解决 是 和 和 否 的 问题 。 人 脸 二 分 类 器 的 原理 如 图 1.7 所 示 。 





人 脸 分 类 器 模型 


图 1.7 判断 图 像 是 否 为 人 脸 的 二 分 类 器 


由 于 人 脸 可 能 出 现在 图 像 的 任何 位 置 , 在 检测 时 用 固定 大 小 的 窗口 对 图 像 人 上 到 下 、 从 
左 到 右 扫 描 , 判 断 窗口 里 的 子 图 像 是 否 为 人 脸 , 这 称 为 滑动 窗口 技术 。 为 了 检测 不 同 大 小 的 
AUI ,还 需要 对 图 像 进行 放大 或 者 缩小 ,对 每 张 缩 放 后 的 图 像 都 用 上 面 的 方法 进行 扫描 。 由 
于 采用 滑动 窗口 扫描 技术 ,并 且 要 对 图 像 进行 反复 缩放 然后 扫描 ,因此 整个 检测 会 非常 耗 
时 。 以 512 像素 X512 像素 的 图 像 为 例 , 假 设 分 类 器 窗口 为 24X24, 滑 动 窗口 的 步 长 为 1， 
则 总 共 需 要 扫描 的 窗口 数 为 


(512—23) X (512 25 (22 23)x (FY 23]+ (235 23) x (32 з} 








>1200000 

即 要 检测 一 张 图 片 需要 扫描 大 于 120 万 个 窗口 。 由 于 一 个 人 脸 可 能 会 出 现 多 个 检测 框 , 还 
需要 将 检测 结果 进行 合并 去 重 , 这 称 为 非 最 大 抑制 (Non-Maximum Suppression, NMS) 
技术 。 

采用 滑动 窗口 技术 的 多 尺度 人 脸 检测 方法 原理 如 图 1.8 所 示 。 

使 用 卷 积 神经 网 络 的 算法 取得 了 更 好 的 精度 0503 , R-CNNP9 、YOLOD9 SSD") 等 
算法 抛弃 了 这 种 滑动 窗口 的 做 法 ,用 图 像 分 割 技 术 估计 出 候选 目标 框 或 者 直接 回归 出 目标 
的 大 小 和 位 置 。 第 13 章 详细 介绍 使 用 AdaBoost 分 类 器 的 人 脸 检 测算 法 ,第 15 章 介绍 使 用 
卷 积 神经 网 络 的 人 脸 检测 算法 。 
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人 机 对 弈 属于 策略 类 问题 , 它 是 人 工 智能 的 传统 问题 ,象棋 、 国 际 象棋 、 围 棋 等 问题 在 过 
去 几 十 年 是 检验 人 工 智 能 进展 的 代表 性 问题 。 棋 类 AI 的 经 典 方法 是 搜索 树 , 它 枚 举 所 有 
可 能 的 棋 步 , 形 成 搜索 树 ,每 次 落 棋 时 选择 最 优 的 棋 步 ,这 需要 定义 一 个 代价 函数 来 评估 各 
个 决策 赢 的 可 能 性 。 随 着 棋 步 的 增加 搜索 树 的 规模 会 以 指数 级 增长 ,因此 ,需要 对 树 进行 
BE. 
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图 1.8 多 尺度 人 脸 检测 原理 


由 于 围棋 的 变化 太 多 ,DeepMind 公司 的 AlphaGoU? 没有 采用 穷 举 搜索 的 技术 ,而 是 用 
机 器 学 习 来 寻找 最 优 棋 步 。AlphaGo 由 多 个 神经 网 络 组 成 ,采用 深度 强化 学 习 技 术 ,它们 
联合 起 来 实现 对 最 优 棋 步 的 搜索 。 这 两 个 网 络 都 通过 大 量 的 棋谱 样本 进行 训练 ,这 一 结构 
如 图 1.9 所 示 。 


Rollout policy SL ройсу network RL policy network Value network Policy network Value network 


Pp (a|s) Vy (s ) 


Pr Py Pp % | 
n BY э BY $ ! TM « 
У v 


Human expert positions. Self-play Positions 
1.9 AlphaGo 的 原理 (来 自 文献 [17]) 





1.2.4 机 器 翻译 
机 器 翻译 (Machine Translation, MT) 实 现 类 似 人 类 的 语言 翻译 功能 , 它 的 目标 是 将 一 


种 语言 的 语句 转换 成 男 外 一 种 语言 的 语句 ,二 者 有 相同 的 含义 。 机 器 翻译 是 自然 语言 处 理 
领域 最 重要 、 最 有 应 用 价值 的 问题 之 一 。 早 期 的 实现 大 多 采用 基于 规则 的 方法 ,后 来 逐渐 过 
渡 到 使 用 机 器 学 习 的 方法 。 

循环 神经 网 络 "* 波 和 卷 积 神经 网 络 "1 被 成 功 地 应 用 于 这 一 问题 ,准确 率 不 断 提高 , 序 
列 到 序列 的 学 习 (seq2sqe) 是 解决 这 一 问题 的 经 典 方 案 。 目 前 Google、 搜 狗 等 互联 网 公司 已 





经 提供 了 各 种 语言 翻译 的 服务 。 第 16 章 将 详细 介绍 机 器 翻译 技术 。 
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自动 驾驶 是 人 工 智 能 领域 非常 有 挑战 性 的 问题 ,也 是 对 人 类 生活 有 深远 影响 的 技术 。 
无 人 驾驶 的 实用 和 普及 不 但 可 以 解放 出 人 类 驾驶 员 ,还 可 以 降低 事故 率 。 要 实现 车 辆 的 自 
动 行驶 需要 解决 如 下 几 个 核心 问题 。 

(1) 定位 。 确 定 车 辆 当前 所 处 的 位 置 ,这 可 以 通过 GPS 雷达、 图像 分 析 等 手段 结合 高 
精度 数字 地 图 来 实现 ,目前 已 经 解决 得 很 好 。 

(2) 环境 感知 。 指 确定 道路 .车 道 线路 面 有 什么 物体 。 这 需要 准确 地 检测 道路 、 车 道 
线 , 以 及 行人 、 车 辆 等 障碍 物 ,还 需要 识别 出 交通 标志 、 信 号 灯 等 重要 信息 ,给 出 车 辆 当前 所 
处 的 环境 。 对 环境 的 感知 可 以 通过 激光 雷达 ,声波 ,图像 等 多 种 数据 采集 手段 配合 机 器 学 习 

(3) 路 径 规划 。 指 给 定 车 辆 的 当前 位 置 和 目的 地 ,计算 出 到 达 目 的 地 的 一 条 可 行路 径 ， 
在 行驶 期 间 可 能 还 要 根据 路 况 信息 做 出 调整 ,最 优 路 径 的 计算 可 以 通过 Dijkstra 算法 、A” 

(4) 决策 与 控制 。 根 据 车 道 占用 情况 .路 况 等 环境 信息 确定 要 执行 的 动作 ,得 到 车 辆 在 
每 个 时 刻 的 行驶 速度 .方向 等 参数 。 由 于 无 法 穷 举 出 所 有 的 路 况 用 规则 来 实现 ,因此 ,可 以 
通过 机 器 学 习 的 手段 训练 出 一 个 模型 ,以 当前 的 路 况 作为 输入 ,预测 输出 为 当前 时 刻 要 执行 
的 动作 。 根 据 环境 情况 对 车 的 运动 进行 控制 ,包括 速度 、 方 向 和 其 他 姿态 参数 ,这 属于 强化 
学 习 的 范畴 。 

深度 卷 积 神经 网 络 和 深度 强化 学 习 技术 所 5 被 用 于 自动 驾驶 问题 ,解决 感知 和 决策 控 
制 问 题 。 卷 积 神经 网 络 用 于 实现 图 像 和 环境 的 感知 理解 ,强化 学 习 用 于 确定 车 辆 的 行为 。 


1.3 发 展 历程 


虽然 机 器 学 习 的 历史 可 以 追溯 到 1950 年 之 前 ,但 作为 一 个 独立 的 方向 ,在 20 世纪 80 
年 代 才 形 成 。20 世纪 90 年 代 和 21 世纪 初 得 到 快速 发 展 ,出 现 了 大 量 的 算法 和 理论 ,在 这 
一 方向 共 诞 生 了 两 位 图 灵 奖 得 主 。 随 着 2012 年 深度 学 习 技 术 的 兴起 ,机 器 学 习 的 应 用 领域 
也 迅速 拓 广 ,成 为 现 阶段 解决 很 多 人 工 智 能 问题 的 主要 途径 。 


13.1 历史 成 就 


图 1.10 列举 了 自 20 世纪 80 年 代 以 来 历史 上 出 现 的 有 代表 性 的 机 器 学 习 算法 。20 lH: 
纪 80 年 代 的 典型 成 果 是 用 于 多 层 神经 网 络 训练 问题 的 反 向 传播 算法 ,以 及 各 种 决策 树 ( 如 
分 类 与 回归 树 ) 。 前 者 是 真正 意义 上 能 够 解决 实际 问题 的 神经 网 络 结构 ,至今 在 深度 神经 网 
络 的 训练 中 还 被 广泛 使 用 。LeCun 在 1989 年 设计 出 第 一 个 卷 积 神经 网 络 ,这 是 深度 卷 积 
神经 网 络 的 前 身 , 它 被 成 功 地 用 于 手写 数字 识别 。 

20 世纪 90 年 代 是 机 器 学 习 走 向 成 熟 和 大 规模 发 展 的 时 代 。 这 一 时 期 出 现 了 支持 向 量 
机 (Support Vector Machine. SVM) , AdaBoost 算法 、 随 机 森林 、 循 环 神经 网 络 /LSTM \ 流 形 
学 习 等 大 量 的 经 典 算 法 。 同 时 ,机 器 学 习 走 向 了 真正 的 应 用 ,如 垃圾 邮件 分 类 、 车 牌 识 别 、 人 
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图 1.10 机 器 学 习 历 史上 的 经 典 方法 


脸 检测 ,文本 分 类 ,语音 识别 ,搜索 引擎 网 页 排序 等 产品 和 功能 。 这 些 经 典 的 机 器 学 习 算法 
在 第 4 一 13 章 讲 述 。 

深度 学 习 技 术 在 2006 年 之 后 得 到 快速 发 展 , 目 前 较 好 地 解决 了 机 器 视觉 .语音 识别 
等 领域 的 部 分 核心 问题 。Hinton 等 人 在 2006 年 提出 一 种 称 为 预 训练 的 方法 ,用 于 解决 
深层 神经 网 络 难以 训练 的 问题 ;2012 年 深度 卷 积 神经 网 络 AlexNet 在 图 像 分 类 任务 中 的 
成 功 表现 使 得 神经 网 络 再 次 被 学 术 界 和 工业 界 关 注 。 循 环 神经 网 络 在 序列 数据 建 模 上 
也 取得 了 成 功 , 典 型 的 是 语音 识别 与 自然 语言 处 理 。 各 种 典型 的 深度 神经 网 络 在 第 14 一 
16 章 讲述 。 

在 数据 生成 问题 上 ,以 生成 对 抗 网 络 为 代表 的 深度 生成 模型 也 取得 惊人 的 效果 ,可 以 生 
成 复杂 的 数据 (如 图 像 声音) 。 生 成 对 抗 网 络 的 原理 在 第 17 章 详 细 讲述 。 

深度 学 习 技术 与 强化 学 习 技 术 相 结合 的 产物 一 一 深度 强化 学 习 一 一 在 众多 的 策略 、 控 
制 问题 上 也 取得 了 成 功 , 如 棋 类 游戏 .自动 驾驶 、 机 器 人 控制 等 。 强 化 学 习 技术 在 第 20 章 详 
132 ”当前 进展 


随 着 深度 学 习 的 兴起 ,人 工 智 能 在 诞生 60 多 年 之 后 再 次 迎 来 复兴 。 无 论 在 学 术 界 还 是 
工业 界 ,深度 学 习 和 人 工 智 能 都 取得 了 迅猛 发 展 。 深 度 学 习 技术 首先 在 机 器 视觉 .语音 识别 
领域 取得 成 功 , 有 效 地 解决 了 大 量 感知 类 问题 。 随 后 又 应 用 到 自然 语言 处 理 、 图 形 学 数据 
挖掘 ,推荐 系统 等 各 领域 。 在 数据 生成 问题 上 .生成 对 抗 网 络 取 得 了 成 功 ,这 是 一 种 由 生成 
模型 和 判别 模型 组 合 而 成 的 系统 ,通过 训练 迭代 ,可 以 使 得 生成 网 络 生成 复杂 的 、 与 真实 样 
本 类 似 的 数据 。 

在 图 像 识 别 .语音 识别 .自然 语言 处 理 等 领域 里 重点 问题 的 特定 测试 数据 库 上 ,深度 学 
习 算 法 已 经 接近 或 者 超越 人 类 的 水 平 , 达 到 或 接近 实用 的 标准 。 在 语音 识别 .人 脸 识别 、 
OCR( 光 学 字符 识别 ) 自 动 驾驶 、 医 学 图 像 识 别 与 疾病 诊断 等 众多 商业 领域 ,深度 学 习 和 人 
工 智能 技术 正在 带 来 产业 变革 。 
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1.4 关于 本 书 


本 书 全 面 系统 地 介绍 机 器 学 习 理 论 与 常用 算法 ,紧密 结合 工程 实现 与 实际 应 用 。 对 每 
种 算法 会 详细 介绍 它 的 思想 ,推导 和 证 明 。 通 过 对 知名 开源 库 的 源 代码 分 析 , 让 读者 理解 每 
种 算法 的 工程 实现 以 及 实现 中 的 细节 问题 。 另 外 ,还 给 出 重要 算法 的 实验 程序 和 应 用 实例 ， 
便于 读者 掌握 算法 的 使 用 。 本 书 的 演示 程序 使 用 C ++ 语言 编写 ,很 容易 转换 为 Python 
版 本 。 

顺利 地 读 懂 本 书 需 要 读者 具备 大 学 本 科 数 学 知识 ,包括 微 积 分 、 线 性 代数 、 概 率 论 ， 
以 及 少量 的 离散 数学 知识 ;另外 还 需要 C ++ 语言 的 编程 知识 四、 基本 的 数据 结构 与 算法 
MARU, 

X 1.2 列 出 了 本 书 详细 讲解 的 算法 以 及 所 在 的 章节 。 

表 1.2 本 书 讲解 的 算法 与 所 在 的 章节 



























































类 型 я 法 = 

有 监督 线性 回归 第 3 章 
有 监督 岭 回归 第 3 章 
有 监督 贝 叶 斯 分 类 器 第 4 章 
有 监督 决策 树 第 5 章 
有 监督 & 近 邻 算法 第 6 章 
无 监督 主 成 分 分 析 第 7 章 
无 监督 流 形 学 习 降 维 第 7 章 
有 监督 线性 判别 分 析 第 8 章 
有 监督 全 连接 神经 网 络 第 9 章 
有 监督 支持 向 量 机 第 10 章 
有 监督 logistic 回归 第 11 章 
有 监督 线性 支持 向 量 机 第 11 章 
有 监督 随机 森林 第 12 章 
有 监督 AdaBoost 算法 第 13 章 
无 监督 自动 编码 器 第 14 章 
无 监督 受 限 玻 尔 兹 曼 机 第 14 章 
有 监督 卷 积 神经 网 络 第 15 章 
有 监督 循环 神经 网 络 第 15 章 
无 监督 隐 马 尔 可 夫 模 型 第 16 章 
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续 表 
类 = # 法 = 
无 监督 高 斯 混合 模型 第 16 章 
有 监督 生成 对 抗 网 络 第 17 章 
无 监督 层次 聚 类 第 18 章 
无 监督 & 均 值 算法 第 18 章 
无 监督 EM 算法 第 18 章 
无 监督 DBSCAN 算法 第 18 章 
无 监督 OPTICS 算法 第 18 章 
无 监督 均值 漂移 算法 第 18 章 
无 监督 WRK 第 18 章 
半 监 督 自 训 练 第 19 章 
半 监 督 协同 训练 第 19 章 
半 监 督 半 监 督 生 成 算法 第 19 章 
半 监 督 半 监 督 支持 向 量 机 第 19 章 
半 监 督 半 监 督 图 算法 第 19 章 
半 监 督 半 监 督 深度 学 习 第 19 章 
强化 学 习 动态 规划 第 20 章 
强化 学 习 蒙特 卡 洛 算法 第 20 章 
强化 学 习 Sarsa 算法 第 20 章 
强化 学 习 Q 学习 第 20 章 
强化 学 习 深度 Q 学 习 第 20 章 
强化 学 习 策略 梯度 算法 第 20 章 
源 代码 分 析 使 用 OpenCV 的 机 器 学 习 库 ,libsvm \liblinear .Caffe。 它 们 的 影响 力 大 且 


应 用 广泛 ,稳定 可 靠 , 是 产品 级 的 实现 。 表 1.3 列 出 了 本 书 中 分 析 的 开源 库 的 版 本 号 ,以 便 














于 读者 与 源 代 码 对 应 。 
表 1.3 本 书 分 析 的 开源 库 的 版 本 号 
开 源 库 版 本 号 
OpenCV 2.4.9 
libsvm 3.17 
liblinear 2.11 
Сайе 1.0 
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各 算法 及 对 应 的 开源 库 如 表 1.4 所 示 。 
表 1.4 各 算法 及 对 应 的 开源 库 



































算 法 开 源 FE 

贝 叶 斯 分 类 器 OpenCV 
决策 树 OpenCV 
随机 森林 OpenCV 
主 成 分 分 析 OpenCV 
线性 判别 分 析 OpenCV 
人 工 神 经 网 络 OpenCV 
支持 向 量 机 libsvm 
logistic 回归 liblinear 
线性 支持 向 量 机 liblinear 
AdaBoost 算法 OpenCV 
卷 积 神经 网 络 Caffe 





有 一 部 分 算法 现在 因为 没有 找到 合适 的 开源 库 分 析 , 目 前 暂时 空缺 ,本 书后 续 的 版 本 中 
会 逐步 加 上 。 
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数学 知识 


工 欲 善 其 事 , 必 先 利 其 器 。 数 学 是 机 器 学 习 的 基础 ,各 种 算法 及 理论 需要 大 量 使 用 微 积 
分 、 线 性 代数 、 概 率 论 .最 优化 方法 等 数学 知识 ,尤其 是 最 优化 理论 。 本 章 将 对 这 些 数 学 知识 
进行 简单 介绍 。 

本 书 只 对 数学 知识 进行 简单 的 介绍 ,系统 地 学 习 数学 知识 可 以 阅读 本 章 结尾 列 出 的 参 
考 文献 。 文 献 [1] 和 [2] 是 微 积分 的 经 典 教材 ,其 中 [1] 是 国内 高 等 数学 使 用 量 最 大 的 教材 ， 
易于 理解 ,适合 作为 人 门 教材 ,[2] 更 为 深入 和 全 面 , 如 果 想 要 深刻 理解 微 积分 和 实 分 析 的 思 
想 , 可 以 阅读 它 。 线 性 代数 推荐 阅读 文献 [3] 或 [4] ,概率 论 推 荐 阅读 文献 [5]。 如 果 想 深入 
了 解数 值 计算 理论 和 方法 ,可 以 阅读 文献 [6] 或 [7]。 如 果 想 全 面 深入 理解 最 优化 、 凸 优化 理 
论 , 文 献 [8] 和 [9] 是 权威 的 经 典 教材 。 

本 章 内 容 由 3 部 分 构成 。 

A) 微 积 分 和 线性 代数 。 介 绍 一 元 函数 的 导数 、 多 元 函数 的 偏 导数 、 泰 勒 展开 、 雅 克 比 
JERE, Hessian 矩阵 等 微 积分 的 知识 ,以 及 向 量 . 和 矩阵 . 张 量 .特征 值 和 特征 向 量 . 和 矩阵 对 角 
化 、 二 次 型 .奇异 值 分 解 等 线性 代数 知识 。 

(2) 最 优化 理论 。 包 括 梯 度 下 降 法 .牛顿 法 .坐标 下 降 法 3 种 常用 的 数值 优化 方法 ; 求 
解 带 等 式 约束 极 值 问 题 的 拉 格 朗 日 乘 数 法 。 凸 优化 理论 , 凸 优化 最 重要 的 性 质 ; 所 有 局 部 
最 优 解 都 是 全 局 最 优 解 。 对 偶 理 论 是 最 优化 理论 中 的 重要 组 成 部 分 ,本 章 介绍 拉 格 朗 日 对 
偶 和 强 对 偶 条 件 。KKT 条 件 是 求解 带 等 式 和 不 等 式 约 束 极 值 问题 的 理论 结果 。 和 牛顿 法 由 
于 在 每 次 迭代 时 需要 计算 Hessian 以 及 求解 线性 方程 组 ,对 于 大 规模 问题 将 面临 计算 效率 
的 问题 , 拟 牛 顿 法 是 它 的 改进 。 

(3) 概率 论 。 包 括 随机 事件 与 概率 、 条 件 概率 与 贝 叶 斯 公式 ;随机 变量 、 概 率 密度 函数 
与 分 布 函数 ;数学 期 望 和 方差 随机 向 量 , 以 及 最 大 似 然 估计 。 


2.1 微 积分 和 线性 代数 

本 节 介 绍 机 器 学 习 所 要 用 到 的 微 积分 和 线性 代数 知识 ,在 后 面 各 章 的 推导 中 会 经 常 使 
用 它们 。 
211 导数 


导数 定义 为 函数 的 自 变 量变 化 值 趋向 于 0 时 ,函数 值 的 变化 量 与 自 变 量 的 变化 量 比值 
的 极限 , 即 


Se АЭ — fx) 
Ar 一 0 


А 
18) MESSE 
Ах 


如 果 上 面 的 极限 存在 , 则 称 函数 在 该 点 处 可 导 。 导 数 的 几何 意义 是 函数 在 某 一 点 处 的 
切线 的 斜率 ,典型 的 物理 意义 是 瞬时 速度 。 根 据 求 导 公式 和 法 则 ,可 以 计算 出 任意 一 个 函数 
的 导数 。 表 2. 1 列 出 了 各 种 基本 函数 和 运算 的 求 导 公 式 。 


表 2.1 基本 求 导 公 式 


f(x) = lim 












































函数 或 运算 求 导 公式 

ЖЕР ЖС (a) =ar"! 

指数 函数 (ey =e 

指数 函数 (ar) —a*lna 

= (sin 2) = cos x 

= fi md (cos z) = —sin x 

对 数 函数 (ln x)= 

加 法 (f(r)+g(z))'= Р (а) р (а) 
乘法 (fa) gi) = f (2) g(a) + fog (z) 
除法 (= Еа 
复合 函数 (f(g(z)))'= f'(g)g'(z) 


复合 函数 的 求 导 公式 可 以 推广 到 多 层 复合 和 多 元 函数 的 情况 ,在 后 面 的 章节 中 将 会 继 
续 介 绍 。 
下 面 用 一 个 例子 来 说 明 导 数 的 计算 方法 ,对 于 如 下 函数 : 
f(z) = nA + z +e*) 
根据 复合 函数 以 及 四 则 运算 的 求 导 法 则 ,有 


ra = Qate* (2x)! _ 2х-+2е*” 


1 
1+2? + е” 1 + z° + е” 1+2’ + e 

导数 和 函数 的 单调 性 密切 相关 。 导 数 大 于 0 时 函数 单调 增 ,导数 小 于 0 时 函数 单调 减 ， 
在 极 值 点 处 导数 必定 为 0。 导数 等 于 0 的 点 称 为 函数 的 驻 点 ,这 为 我 们 求解 函数 的 极 值 提 








OT z* 4 e) 


供 了 依据 。 
如 果 对 导数 继续 求 导 ,可 以 得 到 高 阶 导 数 。 将 二 阶 导 数 记 为 
f'G) 
高 阶 导 数 记 为 
f(x) 


二 阶 导 数 决定 函数 的 止 凸 性 。 如 果 二 阶 导数 大 于 0, 则 函数 为 凸 函 数 ; 如 果 二 阶 导 数 小 
于 0, 则 为 四 函数 。 二 阶 导 数 等 于 0 的 点 称 为 函数 的 拐点 。 

根据 一 阶 导数 和 二 阶 导数 ,可 以 得 到 一 元 函数 的 极 值 判别 法 : 在 驻 点 处 ,如 果 二 阶 导数 
大 于 0, 则 为 函数 的 极 小 值 点 ;如 果 二 阶 导数 小 于 0, 则 为 极 大 值 点 。 如 果 二 阶 导 数 等 于 O, 
则 情况 不 定 。 





А 
82m Wem {19 
2.4.2 向 量 与 矩阵 


向 量 是 有 大 小 和 方向 的 量 , 是 由 多 个 数 构成 的 一 维 数组 ,每 个 数 称 为 它 的 分 量 。 分 量 的 
数量 称 为 向 量 的 维 数 。 物 理 中 的 力 ,速度 是 典型 的 向 量 。n 维 行 向 量 x 有 个 分 量 , 记 为 
bai ee] 
如 果 写 成 列 的 形式 , 则 称 为 列 向 量 : 








转 置 运算 将 列 向 量变 成 行 向 量 , 将 行 向 量变 成 列 向 量 ,向 量 x 的 转 置 记 为 x"。 下 面 是 
对 一 个 行 向 量 的 转 置 : 
1 
2 
3 

所 有 nn 维 实 向 量 构 成 的 集合 简写 为 R"。 在 数学 上 经 常 把 向 量 表示 成 列 向 量 ; 在 计算 机 
编程 语言 里 ,向 量 一 般 按 行 存储 。 分 量 全 为 0 的 向 量 称 为 0 向 量 。 

两 个 向 量 的 加 法 定义 为 向 量 对 应 元 素 相 加 , 它 要 求 参与 运算 的 两 个 向 量 尺寸 相等 ,下 面 
是 加 法 运算 的 一 个 例子 : 


П 2 3] = 








[1 2 3]+[4 5 6]=[5 7 9] 
和 向 量 加 法 类 似 , 两 个 向 量 的 减法 为 它们 对 应 元 素 相 减 。 向 量 与 标量 的 乘积 定义 为 标 
量 与 向 量 每 个 分 量 相 乘 ,下面 是 一 个 标量 乘 的 例子 : 
5X(1 2 3)=(5 10 15) 
两 个 向 量 x 和 y 的 内 积 定义 为 它们 对 应 元 素 乘积 的 和 , 即 


xty 一 Ун 
і=1 


下 面 是 两 个 向 量 内 积 的 例子 : 
1 
1 


177 
f 
3 1 


如 果 两 个 向 量 的 内 积 为 0, 则 称 它们 正 交 ,这 是 几何 中 垂直 这 个 概念 在 高 维 空间 的 
推广 。 
向 量 的 L-P 范 数 是 一 个 标量 ,定义 为 


=1X1+2X1+3X1=6 











Ixl, = (È lal)? 
其 中 ,常用 的 是 LI 和 12 范 数 。 向 量 的 LI 范 数 为 所 有 分 量 的 绝对 值 之 和 , 即 
lali = È la| 


向 量 的 L2 范 数 也 称 为 向 量 的 模 , 即 向 量 的 长 度 , 计 算 公式 为 


| zl1l: 王 | >}? 
i=l 
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如 不 特殊 说 明 , 后 面 各 章 中 的 向 量 范 数 默认 为 2 范 数 。 范 数 的 定义 满足 三 角 不 等 式 , 这 
是 几何 中 三 角 不 等 式 的 抽象 。 

对 于 一 组 向 量 xi in ,x ,如 果 存 在 一 组 不 全 为 0 的 数 a ,… ,a ,使 得 

qxXi 二 azxz 十 … 十 axi: 二 0 

则 称 这 组 向 量 线性 相关 。 如 果 不 存在 一 组 全 不 为 0 的 数 使 得 上 式 成 立 , 则 称 这 组 向 量 线性 
无 关 。 

矩阵 是 一 个 二 维 数组 ,一 个 m X n IB CR. m. 个 行 和 个 列 , 它 的 每 一 个 元 素 ay 为 一 
个 数 , 记 为 


下 面 是 一 个 2X3 Н: 
123 
P 5 | 
di 848 [p HI IT 3 19 BA ШКУ 27 Е лп Хп 的 方 阵 称 为 n 阶 方 阵 。 如 果 一 个 方 阵 
的 元 素 满足 
a; = aj 
则 称 该 矩阵 为 对 称 和 矩阵。 下 面 是 一 个 对 称 和 矩阵 的 例子 : 
1 4 3 
4 2 j 
3 5 3 
如 果 一 个 矩阵 除 主 对 角 线 之 外 所 有 元 素 都 为 0, 则 称 为 对 角 和 矩阵 。 下 面 是 一 个 对 角 矩 
阵 的 例子 : 








1 0 0 
0 2 0 
0 0 3 





如 果 一 个 矩阵 的 主 对 角 线 元 素 为 1 ,其 他 元 素 都 为 0, 则 称 为 单位 矩阵 , 记 为 1, 
E. 
MEAM 
ЭРЕШЕ ВЕЕ XL AE PRU EE RUDI F FERE e — e mX n ШШЕН И ОЯУ n Xm IE 

PE. REPE 4 AYRE RIC AT ,下面 是 一 个 矩阵 转 置 的 例子 ， 
Ф [! | 
P 2 d MP 
ARAM E 


两 个 矩阵 的 加 法 为 其 对 应 位 置 元 素 相 加 ,显然 执行 加 法 运算 的 两 个 矩阵 必须 有 相同 的 
尺寸 。 下 面 是 两 个 矩阵 相 加 的 例子 : 


2 M 8 HE 10 | 
4 5 6 10 11 12] [14 16 18 
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两 个 矩阵 的 减法 为 对 应 位 置 元 素 相 减 ,同样 ,执行 减法 运算 的 两 个 矩阵 必须 尺寸 相等 。 
向 量 与 标量 的 乘法 定义 为 标量 与 向 量 的 每 个 分 量 相 乘 ,下 面 是 标量 乘 的 一 个 例子 : 
Г 2 i ja 10 2d 
5X = 
4 5 6 20 25 30 
两 个 矩阵 的 乘法 定义 为 用 第 一 个 矩阵 的 每 个 行 向 量 和 第 二 个 矩阵 的 每 个 列 向 量 做 内 


积 , 形 成 结果 矩阵 的 每 个 元 素 , 显 然 第 一 个 矩阵 的 列 数 要 和 第 二 个 矩阵 的 行 数 相等 。 下 面 是 
两 个 矩阵 相 乘 的 例子 : 


0 1 
1 1 0 1х0+1х0+0х1 1х1+1х0+0х0 
Xi|0 0|= 
1 0 








0 0 1 0X0+0X0+1X1 0х1+0х0+1х0 


和 矩阵 的 乘法 满足 结合 律 : 
(AB)C = A(BC) 
以 及 左右 分 配 率 : 
A(B + C) = AB + AC 
(A + B)C = AC + BC 
需要 注意 的 是 ,矩阵 的 乘法 不 满足 交换 律 , 即 一 般 情 况 下 : 





ABZBA 

XJ n MEMEA ,如 果 存 在 男 一 个 B Hi: B AEE ENT AIER у {Ж Е. BO 
AB=I 
BA=I 


则 分 别称 B УА AIH REHE AE ATE, — Á 3E Aie de BIER Ze at ЭН WE SE Td Н 
Vg BEER EKERI DE ie AC. BY PAE BA ATF a A sk АЙ Зл: 
(AB)! —B^A^ 
(ADT =A 
(AT) =(A71)T 
矩阵 可 逆 的 充分 必要 条 件 是 其 行列 式 不 为 0, 或 则 满 秩 。 和 矩阵 的 秩 定义 为 矩阵 线性 无 
关 的 行 向 量 或 列 向 量 的 最 大 数量 。 逆 矩阵 可 以 看 作 是 倒数 的 推广 。 
张 量 是 矩阵 在 更 高 维 空间 的 推广 ,可 以 简单 地 看 作 编 程 语 言 里 的 多 维 数组 , 张 量 的 维 数 
称 为 它 的 阶 数 。 一 个 3 阶 张 量 有 3 个 维度 的 下 标 。 标 量 可 是 0 阶 张 量 ,向 量 是 1 PSK at E 
阵 是 2 阶 张 量 。 
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多 元 函数 的 偏 导数 是 一 元 函数 导数 的 推广 。 假 设 有 多 元 函数 f(z error, ERA 
变量 cl 的 偏 导数 定义 为 
of J Gove sai ЧЕ Asso — [Са asm) 
92; Ат; 


具体 计算 时 ,将 要 求 导 的 变量 求 导 ,把 其 他 变量 当 作 常 量 即 可 ,下 面 是 求 偏 导数 的 一 个 








lima, pt 
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例子 : 


(а + ху — у)", 一 2z 十 y 





G^ + 2y — у)", = х 2у 
梯度 是 导数 对 多 元 函数 的 推广 , 它 是 多 元 函数 对 各 个 自 变 量 偏 导数 形成 的 向 量 。 多 元 
函数 的 梯度 定义 为 





Vf(x) = (2 ЕП J 


aut "gu 
其 中 ,Vv 称 为 梯度 算 子 , 它 作 用 于 一 个 多 元 函数 得 到 一 个 向 量 。 下 面 是 计算 函数 梯度 的 一 个 
例子 : 
V (22 + zy — у?) = (2z + y,z= —2y)* 
梯度 和 函数 的 单调 性 、 极 值 有 关 。 根 据 Fermat 定理 ,可 导 函 数 在 某 一 点 处 取得 极 值 的 
必要 条 件 是 梯度 为 0, 梯 度 为 0 的 点 称 为 函数 的 驻 点 。 需 要 注意 的 是 ,梯度 为 0 只 是 函数 取 
极 值 的 必要 条 件 而 不 是 充分 条 件 。 
类 似 地 ,可 以 定义 函数 的 高 阶 偏 导 数 , 这 比 一 元 函数 的 高 阶 导数 复杂 ,因为 有 多 个 变量 。 
以 二 阶 偏 导数 为 例 ,如 下 二 阶 偏 导 数 : 
af 
дхду 
表示 函数 先 对 zx 求 偏 导数 ,然后 再 对 у 求 偏 导数 。 下 面 是 一 个 实际 的 例子 : 
556° Ба rt») = 1 
一 般 情 况 下 ,混合 二 阶 偏 导数 与 求 导 次 序 无 关 , 即 


rf _ af 
azay дудт 











2.1.4 ЖЖ 
对 于 如 下 向 量 到 向 量 的 映射 函数 : 
y= f(x) 
其 中 ,向 量 xER", 向 量 yER", 这 个 映射 写成 分 量 形式 为 
y; = fi(x) 


即 输出 向 量 的 每 个 分 量 是 输入 向 量 的 函数 。 雅 克 比 矩阵 定义 为 输出 向 量 的 每 个 分 量 对 输入 
向 量 的 每 个 分 量 的 偏 导数 构成 的 矩阵 : 


























дуу ду "^ ду‹ ] 
длу дл» дх„ 
дуз ду; дуз 
az Әх, ax, 
ду ду» 9» 
Ox, Ix, IX, 


038—0 m FF n FIBRE. 8E— 1 5—1 £ PR ВЕЕ. ХР КНС] Р&Җ: 
а +2zy +z 


u= 


А 
тА 
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= z—y +z 
它 的 雅克 比 矩 阵 为 
ди du ди 
dx ду dz qe 2x ,| 
ay ay до 1 wd 


Ix ду az 


雅克 比 和 矩阵 可 以 简化 多 元 复合 函数 求 导 的 公式 ,在 第 9 章 反 向 传播 算法 推导 过 程 中 会 
有 它 的 运用 。 


2.1.5 Hessian 矩阵 


Hessian 矩阵 是 由 多 元 函数 的 二 阶 偏 导数 组 成 的 矩阵 。 如 果 函 数 f Cory ntn Н 
导 ,Hessian 矩阵 定义 为 


af ef. gf 











Jai Әтдтх«, Әлдә, 
af PE o EF 
9x,0x, — ui 92302, 
af af. Af 
Ix,0X, I2,0x2 Ix? 
这 是 一 个 冯 阶 和 矩阵。 一 般 情 况 下 多 元 函数 的 混合 二 阶 偏 导数 与 求 导 次 序 无 关 , 即 
af af 


aziaz  дхудл 
因此 ,Hessian 矩阵 是 一 个 对 称 和 矩阵 , 它 可 以 看 作 二 阶 导数 对 多 元 函数 的 推广 。Hessian 4B 
阵 简写 为 Vv ?f(x)。 对 于 如 下 多 元 函数 : 
f(z,y,z) = 22? — zy + y! — 3° 
它 的 Hessian 矩阵 为 




















Pf af af 
dx? dxdy Ixdz oe в 
IL 2f “ы z2 o 
дудх 3y? Эдуде 
Sp af әү di 
ахах Әхду az? 





根据 多 元 函数 极 值 判别 法 ,假设 多 元 函数 在 点 М 的 梯度 为 0, 即 M 是 函数 的 驻 点 , 则 有 
以 下 绪论。 

(1) 如 果 Hessian 矩阵 正定 ,函数 在 该 点 有 极 小 值 。 

(2) 如 果 Hessian ЖЕЛЕ. РАО AA. 

(3) 如 果 Hessian 矩阵 不 定 , 则 不 是 极 值 点 。 

这 是 一 元 函数 极 值 判别 法 对 多 元 函数 对 推广 .Hessian 矩阵 正定 类 似 于 二 阶 导 数 大 于 
0, 其 他 的 以 此 类 推 。 对 于 守 阶 矩阵 4 ,对 于 任意 非 0 BJ n 维 向 量 x 都 有 

x'Ax >0 

ДПЕ Е A 为 正定 矩阵 。 判 定 矩 阵 正定 的 常用 方法 有 以 下 几 种 。 
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CD 矩阵 的 特征 值 全 大 于 0。 
(2) 矩阵 的 所 有 顺序 主子 式 都 大 于 0。 
(3) 矩阵 合同 于 单位 阵 r. 
类 似 地 ,如 果 一 个 半 阶 矩阵 4 ,对 于 任何 非 0 的 维 向 量 x, 都 有 
xTAx < 0 
则 称 和 矩阵 А 为 负 定 和 矩阵。 如 果 满 足 
x'Ax >0 
TU RABE A 为 半 正 定 矩 阵 。Hessian 4 VE IE XE FE j 4 76 PR CRI M i HEAD 2. 如果 Hessian 
AB AEE AFE DM PR 2 РА; ШЖ Hessian ЖЕЛЕ. ШИШ Уу P 46 РА ЖК. 


216 泰勒 展开 

如 果 一 元 函数 阶 可 导 , 它 的 泰勒 展开 公式 为 

SDSS Gi) Ga) HES aya ty ee T [9 Cay Gat 

类 似 地 ,多 元 函数 的 泰勒 展开 公式 为 

f(x) = flx) + СУ f(xo))T(x — xo) + 4 (x — x)  H(x — хо) Бос || x хо II?) 

在 这 里 o 表示 高 阶 无 穷 小 。H 是 Hessian 和 矩阵, 它 和 一 元 函数 的 泰勒 展开 在 形式 上 是 
统一 的 。 在 最 优化 问题 的 数值 求解 时 ,我 们 会 用 泰勒 展开 来 近似 代替 目标 函数 ,在 2. 2 节 中 
会 看 到 ,梯度 下 降 法 使 用 一 阶 泰勒 展开 ,牛顿 法 使 用 二 阶 泰勒 展开 。 

217 行列 式 

行列 式 是 一 个 数 , 它 是 对 方 阵 的 一 种 映射 ,矩阵 4 的 行列 式 记 为 |41。 行列 式 的 定义 有 

两 种 方法 ,逆序 数 法 和 递归 法 。 如 果 采 用 逆序 数 法 ,行列 式 的 计算 公式 为 
[А |= S^ aste) Tasas 
oES i=1 


其 中 ,S, 为 集合 {1,…,n)} 所 有 置换 的 全 体 , 即 将 集合 元 素 打 乱 顺 序 后 形成 的 所 有 有 序 集合 ， 
o 为 一 个 置换 。 对 于 集合 {1,2,3) ,所 有 的 置换 为 
(1,2,3) (1.3.2) 12,1,3) (2.3.1) (3.1.2) (3.2.1) 
Kp 0G) GS o 的 第 i 个 元 素 。sgn(c) 为 置换 的 逆序 数 的 符号 值 , 如 果 逆 序数 为 偶数 ， 
其 值 为 1, 和 否则 为 一 1。 如 果 i<j (Ao) SoG) ,这 称 为 一 个 逆序 。 置 换 {3,2,1} 的 逆序 为 
03;22,02.17:03:1) 
因此 ,逆序 数 为 3。 按照 上 面 的 定义 ,2 阶 和 矩阵 的 行列 式 的 求 和 项 有 7! 项 。2 阶 和 矩阵 的 行列 











式 的 计算 公式 为 
an ар 
—anaz aman 
аһ qaz 
З 阶 和 矩阵 的 行列 式 的 计算 公式 为 
ап а аз 








П П 
апа2азз 1 12423431 1 13421 432 13022031 — 11023032 ^— 41242133 








А 
ТА 
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WERE A 和 B 是 尺寸 相同 的 n ВЕЕ, ДА 
|АВ|=|А||В| 
BE ЕЛАН £7 Bd X 3 EBE Bd KAJ FT SR нй. Hs B BEY FB CAE T £51 
Юй. 
|А7!|= lAI7! 
矩阵 与 标量 乘法 的 行列 式 为 
[аА | =a" 1А] 
其 中 ,n 为 矩阵 的 阶 数 。 


2.1.8 特征 值 与 特征 向 量 


对 于 一 个 ЕВА ,如 果 存 在 一 个 数 4 和 一 个 非 0 向 量 x ,满足 
Ax—Ax 
则 称 A 为 矩阵 4 的 特征 值 ,x 为 该 特征 值 对 应 的 特征 向 量 。 根 据 上 面 的 定义 有 下 面 线性 方 
程 组 成 立 : 
(A—ADx—0 
根据 线性 方程 组 的 理论 ,要 让 齐 次 方程 有 非 0 解 ,系数 矩阵 的 行列 式 必 须 为 0, 即 
14 一 MT| 王 0 
上 式 左边 的 多 项 式 称 为 矩阵 的 特征 多 项 式 。 求 解 这 个 n 次 方程 可 以 得 到 所 有 特征 值 ， 
方程 的 根 可 能 是 复数 。 高 次 方程 的 求 根 很 困难 ,5 次 或 者 5 次 以 上 的 代数 方程 没有 公式 解 ， 
因此 一 般 求 数值 解 , 即 近 似 解 。 求 解 矩 阵 特 征 值 的 经 典 方法 是 QR 算法 和 雅克 比 法 ,如 果 想 
详细 了 解 , 可 以 阅读 数值 分 析 教 材 。 
矩阵 的 迹 定义 为 主 对 角 线 元 素 之 和 : 


tr(4) = REM 
根据 而 达 定理 ,和 矩阵 所 有 特征 值 的 和 为 矩阵 的 迹 ， 


i=1 


同样 可 以 证 明 ,矩阵 所 有 特征 值 的 积 为 矩阵 的 行列 式 ， 


ПА =|А | 
特征 值 和 特征 向 量 在 机 器 学 习 的 很 多 算法 中 都 有 应 用 ,典型 的 包括 正 态 贝 叶 斯 分 类 器 、 
主 成 分 分 析 ` 流 形 学 习 、 线 性 判别 分 析 ERE E. 
一 个 到 阶 和 矩阵 如 果 满 足 
Pr =p 
И ТЕ ЗС Е. TE ЗСА ЕНОТ ЯЙ Ху 1. AJIT, 0 r6] ht 2 [8] A TE 2 , BIAR Fe] Н £3 ER $l) 
的 内 积 为 1, 不 同行 或 列 的 内 积 为 0。 
对 于 一 个 n MERE A ,如 果 存 在 一 个 正 交 甜 阵 卫 .使 得 
P'AP=A 
TU x P ИЕ FE Е ДОР A WIERE, БЕ A 的 对 角 线 元 素 为 矩 4 阵 的 特征 值 ， 
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和 矩阵 己 的 列 为 矩阵 4 的 正 交 化 特征 向 量 。 一 个 矩阵 可 以 对 角 化 的 充分 必要 条 件 是 存在 一 
个 线性 无 关 的 特征 向 量 。 实 对 称 和 矩阵 一 定 可 以 对 角 化 ,在 机 器 学 习 中 , 协 方差 矩阵 之 类 的 矩 
阵 都 是 对 称 和 矩阵 。 


219 奇异 值 分 解 


矩阵 对 角 化 只 适用 于 方 阵 , 如 果 不 是 方 阵 也 可 以 进行 类 似 的 分 解 , 这 就 是 奇异 值 分 解 ， 
简称 SVD。 假 设 A 是 一 个 m Xn 的 矩阵 , 则 存在 如 下 分 解 : 
А = UZV" 
其 中 ,U 为 m Xm WIEZE ДИКОЕ Е А BJ 28 AT Pe ВЕ: ON m Хп KIX fA EE Т 
主 对 角 线 0; 以 外 ,其 他 元 素 都 是 0;V 为 n Xn 的 正 交 矩阵 ,其 行 称 为 矩阵 4 的 右 奇异 向 量 。 
U 的 列 为 447 的 特征 向 量 ,V 的 列 为 474 的 特征 向 量 。 奇 异 值 分 析 在 求解 线性 方程 组 、 北 
矩阵 ,行列 式 中 都 有 应 用 。 


2.1.10 ZRU 
二 次 型 是 纯 二 次 项 构成 的 函数 ,写成 矩阵 形式 为 


xTAx 
其 中 ,4 Жл BR TPR IDE x 是 一 个 列 向 量 。 二 次 型 展开 之 后 是 一 个 二 次 齐 次 多 项 式 , 即 只 
有 二 次 项 : 
> Уш ij 
如 果 对 任意 的 非 0 向 量 x ,二 次 型 的 值 都 大 于 0, 则 称 二 次 型 正定 ;如 果 大 于 或 等 于 0， 
则 称 二 次 型 半 正 定 。 二 次 型 正定 等 价 于 矩阵 4 正定 。 
2111 向 量 与 矩阵 求 导 


为 了 简化 表达 ,有 时 候 会 将 函数 写成 矩阵 和 向 量 运算 的 形式 ,下 面 推导 常用 的 矩阵 和 向 
量 函 数 的 求 导 公 式 。 对 于 下 面 的 向 量 内 积 函 数 : 





y=w"x 
其 自 变量 为 x。 将 它 展开 写成 求 和 形式 为 

у= Уша, 
函数 对 每 个 自 变量 的 偏 导数 为 

9y 

д Р 
从 而 得 到 梯度 的 计算 公式 为 

Vw'x—w 
对 于 如 下 二 次 函数 

у = x' Ax 


其 自 变量 为 x。 展 开 之 后 写成 求 和 形式 为 
2j ayes; 


i=1 j=1 


А 
ТАА 
Elm Sue (27 


根据 上 面 的 展开 可 以 得 到 对 每 个 自 变量 的 偏 导数 为 
gor Maye, + Maye, 





д2; 
从 而 得 到 梯度 的 计算 公式 为 
VxTAx = (A+A™)x 
如 果 A 是 对 称 和 矩阵 ,上 式 可 以 简化 为 
Vx'Ax = 2Ax 
根据 展开 公式 ,二 阶 偏 导数 为 
ay a 





= (ахх; dc agrj;r;) = ay + aj 
ajax,  da,dx, 409%) jc Ti ü й 


上 式 成 立 是 因为 只 有 这 两 个 求 和 项 含有 zizx; .其 他 求 和 项 的 偏 导数 都 为 0。 写 成 矩阵 
形式 ,可 以 得 到 Hessian 矩阵 为 
V?xTAx = А РАТ 
如 果 A АЕ, E SEET DA {ЕЗ 
V'x'Ax = 2A 


2.2 最 优化 方法 


本 节 介 绍 最 优化 方法 , 即 寻 找 函数 极 值 点 的 数值 方法 。 通 常 采 用 的 是 迭代 法 , 它 从 一 个 
初始 点 ze 开始 ,反复 使 用 某 种 规则 从 т, 移动 到 下 一 个 点 zxi+1, 直 至 到 达 函 数 的 极 值 点 。 这 
些 规则 一 般 会 利用 一 阶 导 数 信息 即 梯度 ;或 者 二 阶 导数 信息 即 Hessian 和 矩阵。 算法 的 依据 
是 寻找 梯度 值 为 0 的 点 ,因为 根据 极 值 定理 ,在 极 值 点 处 函数 的 梯度 必须 为 0。 需 要 注意 的 
是 ,梯度 为 0 是 函数 取得 极 值 的 必要 条 件 而 非 充 分 条 件 , 因 此 ,即使 找到 了 梯度 为 0 的 点 ， 
也 可 能 不 是 极 值 点 。 

我 们 将 最 优化 问题 统一 表述 为 求解 函数 的 极 小 值 问 题 , 即 

min,f (x) 
其 中 ,x 称 为 优化 变量 ,f 称 为 目标 函数 。 极 大 值 问题 可 以 转换 成 极 小 值 问 题 ,只 需 将 目标 
函数 加 上 负 号 即 可 。 有 些 时 候 会 对 优化 变量 有 约束 ,如 等 式 约束 和 不 等 式 约束 ,它们 定义 了 
优化 变量 的 可 行 域 , 即 满足 约束 条 件 的 点 构成 的 集合 。 


2.2.1 梯度 下 降 法 


梯度 下 降 法 沿 梯 度 向 量 的 反方 向 进行 迭代 以 到 达 函 数 的 极 值 点 。 根 据 多 元 函数 的 泰勒 
展开 公式 ,如 果 和 忽略 二 次 及 以 上 的 项 ,函数 f(x) 在 x 点 处 可 以 展开 为 
Гох + Ах) = f(x) + Gf G0? Ax + olx) 
变形 之 后 ,函数 的 增 量 与 自 变 量 的 增 量 Ax、 函 数 梯度 的 关系 可 以 表示 为 
fet Ах) — f(x) = (УРОТА + o( Ax) 





如 果 能 保证 
(VfGO)TAx < 0 
则 有 


w 
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/Сх + Ax) < f(x) 


即 函 数值 递减 。 选 择 合适 的 增 量 Ax 就 能 保证 函数 值 下 降 。 可 以 证 明 , 向 量 Ax 的 模 大 小 一 
定时 , 当 Ax 二 一 Vf(x) 即 在 梯度 相反 的 方向 函数 值 下 降 的 最 快 。 设 
Ax —— YV f Go 
其 中 ,y 为 一 个 接近 于 0 的 正 数 , 称 为 步 长 ,由 人 工 设 定 ,用 于 保证 x+ Ax 在 x 的 邻 域内 ,从 
而 可 以 忽略 泰勒 展开 中 二 次 及 更 高 的 项 。 在 梯度 的 反方 向 有 
CVF Ах —— AV f GDDT (V f(x) < 0 
从 初始 点 хо 开始 ,使 用 如 下 迭代 公式 : 
Xen = x, — YV f(x) 

只 要 没有 到 达 梯 度 为 0 的 点 ,函数 值 会 沿 着 序列 x, 递减 ,最 终 会 收敛 到 梯度 为 0 的 
点 ,这 就 是 梯度 下 降 法 。 和 迭代 终止 的 条 件 是 函数 的 梯度 值 为 0( 实 际 实现 时 是 接近 于 0), 
此 时 认为 已 经 达到 极 值 点 。 梯 度 下 降 法 只 需要 计算 函数 在 某 些 点 处 的 梯度 ,实现 简单 ， 
计算 量 小 。 

最 速 下 降 法 是 梯度 下 降 法 的 改进 。 在 梯度 下 降 法 的 迭代 中 ,y 设 定 为 一 个 固定 的 接近 0 
的 正 数 。 最 速 下 降 法 同样 是 沿 着 梯度 相反 的 方向 进行 迭代 ,但 是 要 计算 最 佳 步 长 Y。 将 搜 
索 方向 记 为 

d, =— Vf(x,) 
在 该 方向 上 寻找 使 得 函数 值 最 小 的 步 长 y: 
Y. = arg minyf (x, + 7) 

其 他 步骤 和 梯度 下 降 法 相同 。 这 是 一 元 函数 的 极 值 问题 ,唯一 的 优化 变量 是 7, 在 实现 
时 一 般 将 y 的 取 值 范围 离散 化 , 即 取 一 些 典 型 值 7 … a Va ,分 别 计算 取 这 些 值 是 的 目标 函数 
值 , 然 后 挑选 出 最 优 的 那个 。 随 机 梯度 下 降 法 以 及 更 多 的 梯度 下 降 法 变种 在 第 15 章 中 
介绍 。 


2.2.2 ”牛顿 法 


根据 极 值 定理 ,函数 在 点 x" 处 取得 极 值 的 必要 条 件 是 导数 (对 于 多 元 函数 是 梯度 ) 为 
0, 即 
vf/(x")=0 
Tk x 为 函数 的 驻 点 。 可 以 通过 寻找 函数 的 驻 点 求解 函数 的 极 值 。 直 接 计 算 函 数 的 梯度 然 
后 解 上 面 的 方程 组 一 般 来 说 非常 困难 ,如 果 函 数 是 一 个 复杂 的 非 线 性 函数 ,这 个 方程 组 是 一 
个 非 线性 方程 组 ,不 易 求解 。 和 梯度 下 降 法 类 似 ,在 这 里 也 采用 迭代 法 。 
对 多 元 函数 在 xo 处 进行 二 阶 泰勒 展开 ,有 


f(x) = fGa) + Vf)" G— хь) d TG — x01 V fai) Gr — хь) + ol (x x) 


忽略 二 次 及 以 上 的 项 ,将 函数 近似 成 二 次 函数 ,并 对 上 式 两 边 同 时 对 x 求 梯度 ,得 到 函 
数 的 导数 (梯度 向 量 ) 为 
V (x) = Vf(xo) + V? f x) (х — хо) 
其 中 ,V ?f(xo) 即 为 Hessian 矩阵 Н. РАЖ ЛЕ 0 . WJ r 
у(х) + V fle) (x— x) = 0 
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解 这 个 线性 方程 组 可 以 得 到 
x = хо — (VIf(xo))! V f(xo) 
如 果 将 梯度 向 量 简写 为 8, 上面 的 公式 可 以 简写 为 
x= x —H`g 

由 于 在 泰勒 展开 中 忽略 了 高 阶 项 ,因此 ,这 个 解 并 不 一 定 是 函数 的 驻 点 ,需要 反复 用 这 
个 公式 进行 迭代 。 从 初始 点 xo 处 开始 ,反复 计算 函数 在 处 的 Hessian 矩阵 和 梯度 向 量 , 然 
后 用 下 面 的 公式 进行 迭代 : 

Xe = Xx, 一 H;'g. 
最 终 会 到 达 函 数 的 驻 点 处 。 其 中 ,一 HT'g 称 为 牛顿 方向 。 和 迭代 终止 的 条 件 是 梯度 的 模 接 
近 于 0 ,或 者 函数 值 下 降 小 于 指定 阅 值 。 牛 顿 法 的 完整 流程 如 下 。 

CD 给 定 初始 值 xo 和 精度 阔 值 s, 设 置 人 一 0。 

(2) 计算 梯度 g, 和 和 矩阵 H, o 

(3) 如 果 || g, | <e, 则 停止 迭代 。 

(4) 计算 搜索 方向 d, = — Hi! gi. 

(5) 计算 新 的 迭代 点 хы mx Hda o 

(6) 令 一 A 十 1, 返 回 步骤 (2) 。 

其 中 ,y 是 一 个 接近 于 0 的 常数 ,由 人 工 设 定 , 和 梯度 下 降 法 一 样 , 需 要 这 个 参数 的 原因 
是 保证 хув, E x, 的 邻 域内 ,从 而 可 以 忽略 泰勒 展开 的 高 次 项 。 如 果 目 标 函 数 是 二 次 函数 
Hessian 矩阵 是 一 个 常数 矩阵 ,对 于 任意 给 定 的 初始 点 ,牛顿 法 只 需要 一 步 迭 代 就 可 以 收敛 
到 极 值 点 。 

牛顿 法 不 能 保证 每 一 步 迭 代 时 函数 值 下 降 , 即 不 保证 一 定 收敛 。 为 此 ,提出 了 一 些 补救 
措施 ,其 中 常用 的 是 直线 搜索 , 即 搜索 最 优 步 长 。 具 体 做 法 是 让 y 取 一 些 典型 的 离散 值 ， 
例如 : 

0.0001, 0.001, 0.01 
比较 取 哪 个 值 时 函数 值 下 降 最 快 ,作为 最 优 步 长 。 

和 梯度 下 降 法 相 比 牛顿 法 有 更 快 的 收敛 速度 ,但 每 一 步 迭 代 的 成 本 也 更 高 。 在 每 次 迭 
代 时 ,除了 要 计算 梯度 向 量 之 外 还 要 计算 Hessian 矩阵 ,并 求解 Hessian Я [ИЕ ВО Е Е. 92 
际 实 现时 一 般 不 直接 求 Hessian 矩阵 的 逆 和 矩阵 ,而 是 求解 如 下 方程 组 ， 

H.d =— g, 

求解 这 个 线性 方程 组 一 般 使 用 迭代 法 n deia БЕТ. ШЕТШ Н 03 SS 81 4й e 

Hessian 矩阵 可 能 不 可 逆 , 从 而 导致 这 种 方法 失效 。 


2.2.3 坐标 下 降 法 


坐标 下 降 法 的 基本 思想 是 每 次 对 一 个 变量 进行 优化 ,这 是 一 种 分 治 法 。 假 设 要 求解 的 
优化 问题 为 





min f(x), 2 = Gain) 


坐标 下 降 法 求解 流程 为 


给 定 一 个 初始 可 行 解 z 
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循环 ,直到 达到 最 优点 处 : 
循环 ,i 二 1,2,…,n 
求解 子 问题 : arg min, f (x) 
结束 循环 


坐标 下 降 法 每 次 迭代 时 在 当前 点 处 沿 一 个 坐标 轴 方向 进行 一 维 搜索 ,固定 其 他 的 坐标 
方向 ,找到 一 个 一 元 函数 的 极 小 值 。 在 整个 过 程 中 依次 循环 使 用 不 同 的 坐标 方向 进行 迭代 ， 
一 个 周期 的 一 维 搜索 迭代 过 程 相当 于 一 个 梯度 迭代 。 


2.2.4 拉 格 朗 日 乘 数 法 


前 面 介绍 的 最 优化 方法 求解 的 问题 都 不 带 有 约束 条 件 。 拉 格 朋 日 乘 数 法 用 于 求解 带 等 
式 约 束 条 件 的 函数 极 值 , 这 是 一 个 理论 结果 。 假 设 有 如 下 极 值 问题 : 
min f(x) 
hi(x) =0, i—10).2.-.p 
拉 格 朗 日 乘 数 法 构造 如 下 目标 函数 , 称 为 拉 格 朗 日 函数 ， 


L(x.à) = f(x) 十 Sah) 
其 中 ,4 为 新 引入 的 自 变 量 , 称 为 拉 格 朗 日 乘 子 ,构造 这 个 函数 之 后 ,去 掉 了 对 优化 变量 的 等 
数 约束 。 对 上 述 所 有 自 变 量 求 偏 导 数 ,并 令 其 为 0, 这 包括 对 x 求 导 ,对 4 求 导 。 得 到 下 列 
方程 组 : 


b 
Vif + DA V h = 0 
i=l 


h(x) = 0 
求解 这 个 方程 组 即 可 得 到 函数 的 候选 极 值 点 。 显 然 方程 组 的 解 满足 所 有 的 等 式 约 束 条 
件 。 拉 格 朗 日 乘 数 法 的 几何 解释 是 ,在 极 值 点 处 目标 函数 的 梯度 是 约束 函数 梯度 的 线性 组 


合 , 即 


Vf =— SAV As 
i=l 
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求解 一 般 函 数 的 全 局 极 值 是 非常 困难 的 ,至 少 要 面临 的 一 个 问题 是 函数 可 能 有 多 个 局 
部 极 值 点 。 如 果 对 问题 加 以 限定 , 则 会 简单 很 多 。 这 个 限制 包括 两 个 方面 ,对 于 目标 函数 ， 
我 们 限定 它 为 凸 函数 ;对 于 优化 变量 的 可 行 域 ,我 们 限定 为 一 个 凸 集 。 同 时 满足 上 述 两 个 限 
制 条 件 的 最 优化 问题 称 为 凸 优化 问题 。 

对 于 维 空间 中 点 的 集合 C ,如 果 对 集合 中 的 任意 两 点 x Aly ARSE OIL A 

+0 -0уЄ С 
则 称 该 集合 称 为 凸 集 。 如 果 把 集合 画 出 来 ,其 边界 是 凸 的 ,没有 四 进去 的 地 方 ;或 者 说 ,把 该 
集合 中 的 任何 两 点 用 直线 连 起 来 .直线 上 的 点 都 属于 该 集合 。 相 应 地 : 
pk 十 (1 一 0)y 

称 为 点 x 和 y HAF. 2. 1 是 凸 集 和 非 凸 集 的 示意 图 ,图 2. 1(a) 为 凸 集 ,图 2.1(b) 为 
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非 凸 集 。 


(a) 凸 集 (b) 非 凸 集 
图 2.1 凸 集 和 非 凸 集 示意 图 


下 面 是 实际 问题 中 常见 的 凸 集 , 记 住 它 们 对 理解 后 面 的 算法 非常 有 帮助 。 
п 维 实 向 量 空 间 R"。 显 然 如 果 x,yER", 则 有 
&--0—0y€R" 
CD 仿 射 子 空间 。 给 定 moX n Ж А Elm 维 向 量 5b, 仿 射 子 空间 定义 为 如 下 向 量 的 
EA: 
(x € R"; Ax — b) 
它 是 非 齐 次 线性 方程 组 的 解 。 下 面 给 出 证 明 ,假设 x. y € R "ЭЁ H Ax — b. Ay — b. X F 
任意 0<0<1, 有 
A(0x + (1—0)y) = 0Ax + (0— 0Ay = 0b + (1—0)b = b 
因此 ,这 个 集合 是 一 个 凸 集 。 这 个 结论 的 现实 意义 是 ,由 线性 等 式 约束 条 件 定义 的 可 行 
域 是 一 个 凸 集 。 
(2) 多 面体 。 多 面体 定义 为 如 下 向 量 的 集合 : 
(x € R"; Ax « b) 
它 就 是 线性 不 等 式 围 成 的 区 域 。 下 面 给 出 证 明 , 任 何 x,y€ER" 并 且 Ax b. Aysb. lil 
Ж 0 过 091, 有 
A(0x + (1 — 0)y) = бАх + (1 — )Ay < 0b --(1—0b = b 
因此 ,这 个 集合 是 一 个 凸 集 。 这 个 结论 的 意义 在 于 ,由 线性 不 等 式 约束 条 件 定义 的 可 行 
域 是 一 个 凸 集 。 在 实际 应 用 中 ,等 式 和 不 等 式 约 东 一般 都 是 线性 的 ,因此 ,它们 确定 的 可 行 
WEDE., 
一 个 重要 结论 : 多 个 凸 集 的 交集 还 是 凸 集 。 证 明 如 下 。 


























假设 C, Ct 为 凸 集 ,它们 的 交集 为 人] CAFER xy E [| CJELI, 


由 于 С.С 为 凸 集 ,所 以 有 
bx 十 (1 一 0)yEC， Vi=1.2,.,k 














由 此 : 
k 
ёх+а—®уеє (с 


这 个 结论 的 实际 价值 是 .如 果 每 个 等 式 或 者 不 等 式 约束 条 件 定义 的 集合 都 是 凸 集 ,那么 
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这 些 条 件 联合 起 来 定义 的 集合 还 是 凸 集 。 需 要 注意 的 是 , 凸 集 的 并 集 并 不 是 凸 集 ,这 样 的 反 
例 很 容易 构造 。 
假设 有 一 个 函数 ,在 它 的 定义 域内 ,对 于 任意 的 实数 OO, ATH EF ARE 
f(x + (—0y) < 0f(x) + (1—0) f(y) 
则 函数 为 凸 函 数 , 这 个 不 等 式 和 凸 集 的 定义 类 似 。 从 图 像 上 看 ,一 个 函数 如 果 是 凸 函数 , 那 
么 它 是 向 下 凸 出 去 的 。 用 直线 连接 函数 上 的 任何 两 点 A 和 B ,线段 AB 上 的 点 都 在 函数 的 
上 方 , 如 图 2.2 所 示 。 











图 2.2 дайте 


如 果 把 上 面 不 等 式 中 的 等 号 去 掉 : 
fxr++(1—0y)=0f(x)+(1—0f(y) 
则 称 函数 是 严格 凸 函数 。 凸 函数 的 一 阶 判定 规则 为 
f(y) > f(x) + Vf(x)T(y — x) 
其 几何 解释 为 函数 在 任何 点 处 的 切线 都 位 于 函数 的 下 方 。 一 元 函数 是 凸 函 数 的 判定 规 
则 为 其 二 阶 导数 大 于 等 于 0. Вр 
f'G)z0 
对 于 多 元 函数 ,如 果 它 是 凸 函数 , 则 其 Hessian Ж ME g IE XE РЕ. WR Hessian 和 矩阵 
是 正定 的 , 则 函数 是 严格 凸 函数 。 
一 个 重要 结论 是 , 凸 函 数 的 非 负 线 性 组 合 是 凸 函 数 ,假设 f; 是 凸 函 数 , 并 且 зо; 220. А] 
fO) = wifi 
是 凸 函 数 。 根 据 凸 函数 的 定义 很 容易 证 明 这 个 结论 ,在 这 里 略 去 证 明 过 程 。 
给 定 一 个 凸 函 数 以 及 一 个 实数 a, 函数 的 a 下 水 平 集 (sub-level set) 定 义 为 函数 值 小 于 
或 等 于 的 点 的 集合 : 
ix € D(f): f(x) <a} 
很 容易 证 明 该 集合 是 一 个 凸 集 。 这 个 概念 的 用 途 在 于 我 们 需要 确保 优化 问题 中 一 些 不 
等 式 约 东 条 件 定义 的 可 行 域 是 凸 集 。 
如 果 一 个 最 优化 问题 的 可 行 域 是 凸 集 并 且 目 标 函数 是 凸 函数 , 则 该 问题 为 凸 优化 问题 。 
凸 优 化 问题 可 以 形式 化 地 写成 
min f(x) 
*ЄС 


А 
жож вея А 


其 中 ,x 为 优化 变量 ;7 为 凸 的 目标 函数 ;C 是 优化 变量 的 可 行 域 ,是 一 个 凸 集 。 凸 优化 问题 
的 另 一 种 通用 写法 是 


min f(x) 
gi(x) S< 0. ¿i= 1.2," ,m 
hi(x) =0, т=1,2,+з,р 


其 中 ,gi;(x) 是 不 等 式 约束 函数 ,为 凸 函数 ;h;(x) 是 等 式 约束 函数 ,为 仿 射 函 数 。 上 面 的 定义 
中 不 等 式 的 方向 非常 重要 ,因为 一 个 凸 函 数 的 0 下 水 平 集 是 凸 集 , 反 过 来 则 不 一 定 成 立 。 这 
些 不 等 式 共 同 定义 的 可 行 域 是 一 些 凸 集 的 交集 ,仍然 为 凸 集 。 通 过 将 不 等 式 两 边 同 时 乘 以 
一 1, 可 以 把 不 等 式 都 写成 小 于 号 的 形式 。 前 面 已 经 证 明 仿 射 空间 是 凸 集 , 因 此 ,加 上 这 些 等 
式 约束 后 可 行 域 还 是 凸 集 。 
上 面 的 定义 也 给 出 了 证 明 一 个 优化 问题 是 凸 优化 问题 的 一 般 性 方法 , 即 证明 目 标 函 数 
是 凸 函 数 ,等 式 和 不 等 式 约束 构成 的 可 行 域 是 凸 集 。 
对 于 一 个 可 行 点 x, 如 果 在 其 邻 域内 没有 其 他 点 的 函数 值 比 该 点 小 , 则 称 该 点 为 局 部 最 
优 ,下 面 给 出 这 个 概念 的 严格 定义 : 对 于 一 个 可 行 点 ,如 果 存 在 一 个 大 于 0 的 实数 5, 对 于 所 
有 满足 
llx-zll.<o 
的 点 , 即 x 的 6 邻 域内 的 点 xz ,都 有 
JG) x РО) 
WER x 为 局 部 最 优点 。 对 于 一 个 可 行 点 x, 如 果 可 行 域内 所 有 点 zx 处 的 函数 值 都 比 在 这 点 
处 大 , 即 
f(x) < f(x) 
则 称 x 为 全 局 最 优点 ,全 局 最 优 解 可 能 不 止 一 个 。 凸 优化 问题 有 一 个 重要 的 特性 : 所 有 局 
部 最 优 解 都 是 全 局 最 优 解 。 这 个 特性 可 以 保证 我 们 在 求解 时 不 会 陷入 局 部 最 优 解 , 如 果 找 
到 了 问题 的 一 个 局 部 最 优 解 , 则 它 一 定 也 是 全 局 最 优 解 ,这 极 大 地 简化 了 问题 的 求解 。 下 面 
证 明 上 面 的 结论 ,采用 反 证 法 ,具体 证 明 如 下 。 
假设 x 是 一 个 局 部 最 优 解 但 不 是 全 局 最 优 解 , 即 存在 一 个 可 行 解 了 ,有 
f(x) > fly) 
根据 局 部 最 优 解 的 定义 ,不 存在 满足 | x—z |] ,三 6 jË HB Р) < f(x)0J t. 96 — 
个 点 : 
2 = 0у + (1 — 0)х 
其 中 


2 M 
"= 215—1, 


d (sir zj 


E à = 
а |l yr; >|, 


=2 <s 


则 有 








| x—zllz 
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即 该 点 在 x 的 6 邻 域内 。 另 外 : 
f(z) = fy + Q0 —0x) <Of(y) + (1—0)/(х) < /(х) 

这 与 x FE j SB t Л RAP Je BË Bz UL ЙЕ AS Jes 2 JP) Bz UC f , ТЕ Z ЇЇ ТЕ fa $Ë Ж A 
还 可 以 找到 函数 值 比 该 点 更 小 的 点 ,这 与 该 点 是 局 部 最 优 解 矛盾 。 

之 所 以 凸 优化 问题 的 定义 要 求 目 标 函 数 是 凸 函 数 而 且 优化 变量 的 可 行 域 是 凸 集 ,是 因 
为 缺 其 中 任何 一 个 条 件 都 不 能 保证 局 部 最 优 解 是 全 局 最 优 解 。 下 面 来 看 两 个 反例 。 

情况 1: 可 行 域 是 凸 集 ,函数 不 是 凸 函 数 。 这 样 的 例子 如 图 2.3 所 示 。 

i 








-— 


图 2.3 可 行 域 是 凸 集 , 目 标 函 数 不 是 凸 函数 
图 2. 3 中 优化 变量 的 可 行 域 是 整个 实数 集 , 显 然 是 凸 集 , 目 标 函 数 不 是 是 函数, 有 两 个 
局 部 最 小 值 ,这 不 能 保证 局 部 最 小 值 就 是 全 局 最 小 值 。 
情况 2: 可 行 域 不 是 凸 集 , 函 数 是 是 函数。 这 样 的 例子 如 图 2.4 所 示 。 








一 


2.4 可 行 域 不 是 凸 集 , 目 标 函 数 是 凸 函 数 


在 图 2. 4 中 可 行 域 不 是 凸 集 ,中 间 有 断裂 ,目标 函数 还 是 凸 函 数 。 在 曲线 的 左边 和 右边 
各 有 一 个 最 小 值 ,不 能 保证 局 部 最 小 值 就 是 全 局 最 小 值 。 可 以 很 容易 把 这 个 例子 推广 到 3 
维 空间 里 的 2 元 函数 (曲面 )。 


226 拉 格 朗 日 对 偶 


对 偶 是 最 求解 优化 问题 的 一 种 手段 , 它 将 一 个 最 优化 问题 转化 为 另外 一 个 更 容易 求解 
的 问题 ,这 两 个 问题 是 等 价 的 。 常 见 的 对 偶 有 拉 格 朗 日 对 偶 、Fenchel 对 偶 等 ,本 节 介 绍 拉 
格 朗 日 对 偶 。 对 于 如 下 带 等 式 约束 和 不 等 式 约束 的 优化 问题 : 


min f(x) 


А 
ТА 
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gi(x) < 0. т=1.2,+.,т 
hi) m0, 2213532, 
{Л CLER BI Н Ж Ho Fais STA BY | C 


m Р 
LOA.) = fGO + D iig: о) + Pv; (x) 
i=l i=l 


同样 地 , 称 4 和 wv OTR D ARF A, 必须 满足 4; 宇 0 的 约束 。 接 下 来 将 上 面 的 问题 转 
化 为 如 下 原 问 题 ,其 最 优 解 为 p”: 

р* = mingmaxiyasoL(x.A.v) 
= тіп,0р(х) 

上 面 第 一 个 等 式 右 边 的 含义 是 先 固定 住 变量 x, 将 其 看 成 常数 ,让 拉 格 朗 日 函数 对 乘 子 
变量 和 v 求 最 大 值 ; 消 掉 变 量 4 和 v 之 后 ,再 对 变量 x 求 最 小 值 。 为 了 简化 表述 ,定义 如 
下 最 大 化 问题 ， 

Op(x) = maxyyasol (xA. v) 

这 是 一 个 对 变量 4 和 v 求 函数 L 的 最 大 值 的 问题 ,将 x 看 成 常数 。 这 样 , 原 问 题 被 转化 
为 先 对 变量 4 和 wv 求 最 大 值 ,再 对 x 求 最 小 值 。 这 个 原 问 题 和 我 们 要 求解 的 最 小 化 问题 有 
同样 的 解 , 下 面 我 们 给 出 证 明 。 对 于 任意 的 x. 分 两 种 情况 进行 讨论 。 

(1) 如 果 对 于 某 些 i 有 gi(x)0, 即 x 违反 了 不 等 式 约束 条 件 , 不 是 可 行 解 , 让 拉 格 
WH HEF A; = +09 ,最 终 使 得 目标 函数 值 9p(x) 一 十 cc 。 如 果 对 于 某 些 ;有 万 (z) 天 0, 可 
以 让 

y, =+ =° * sgn(h,(x)) 
从 而 使 得 
bp (x) 一 十 co 
即 对 于 任意 不 满足 等 式 或 不 等 式 约束 条 件 的 x, 则 该 最 大 化 问题 bw (xz) 的 最 优 解 是 十 cc 。 

(2) WIE x 是 可 行 解 ,这 时 Op (G0 = fC) ,因为 有 h(x) 二 0, 并 且 gi;(x) 三 0, 而 我 们 要 求 
4 宇 0, 因 此 Op (x) 的 最 大 值 充其量 为 f(x)。 为 了 达到 这 个 极 大 值 ,让 34; Яй», 为 0, 函数 的 极 
大 值 就 是 fox). 

综合 以 上 两 种 情况 ,问题 Op (x) 和 我 们 要 优化 的 带 等 式 和 不 等 式 约束 问题 的 关系 可 以 
表述 为 
f(x), giGO «O0. A(x) = 0 
+œ, 其 他 
即 9o(x) 是 原始 优化 问题 的 无 约束 版 本 。 对 任何 不 可 行 的 x, 强 制 让 Op GO = o. A mi ft 49 
原始 问题 的 目标 函数 值 趋向 于 无 穷 大 ,排除 掉 x 的 不 可 行 区 域 .最 后 只 剩 下 可 行 的 x 组 成 
的 区 域 。 这 样 要 求解 的 带 约束 优化 问题 转化 成 了 对 x 不 带 约束 的 优化 问题 ,并 且 二 者 等 
价 , 即 


pa) = | 


minxOp (x) = min, max, 2o LÀ. v) 
E F ЖЕ хр SS FERE UC а: 
a= maxa,a >o min,L (x .À v) = MaXi.v.a,>0Ip (А.у) 
其 中 ， 
b(A. v) = min,L(x.A.v) 
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和 上 面 的 定义 相反 ,这 里 是 先 固定 拉 格 朗 日 乘 子 h 和 ，*, 调 整 x 让 拉 格 朗 日 函数 对 x 求 极 小 
值 ; 然 后 再 调整 ЯП» 对 函数 求 极 大 值 。 

原 问 题 和 对 偶 问 题 只 是 改变 了 求 极 大 值 和 极 小 值 的 顺序 ,每 次 操控 的 变量 是 一 样 的 。 
如 果 原 问题 和 对 偶 问 题 都 存在 最 优 解 , 则 对 偶 问 题 的 最 优 值 不 大 于 原 问 题 的 最 优 值 , 即 

d' = maxiwazominsL Сх.А у) < тіп, maxi a >o L xA v) = р" 
下 面 给 出 证 明 。 对 任意 的 x 和 4、v, 根 据 定义 ,对 于 对 偶 问 题 有 
Op (A. v) = тїп,Ї,(х,А,у) < 1,(х,А,у) 
对 于 原 问题 有 
Op(x) = maxa,razoL (x.A,v) > L(x,A,v) 


此 对 任意 的 x 和 4、v 有 





DE 











Op Cx) > 0p CA.) 
由 于 原 问 题 和 对 偶 问 题 的 最 优 值 存在 ,因此 有 
minxOp (x) > max, v, 2000 (А.У) 

原 问题 最 优 值 和 对 偶 问 题 最 优 值 的 差 p" а" 称 为 对 偶 间 际 。 如 果 原 问题 和 对 偶 问 题 
有 相同 的 最 优 解 ,那么 就 可 以 把 求解 原 问 题 转化 为 求解 对 偶 问题 ,这 个 结论 成 立 的 一 种 前 提 
条 件 就 是 下 面 要 讲述 的 Slater 条 件 。 

Slater 条 件 指出 ,一 个 凸 优化 问题 如 果 存 在 一 个 候选 x 使 得 所 有 不 等 式 约束 都 是 严格 
满足 的 , 即 对 于 所 有 的 i 都 有 gi;(x) 二 0, 不 等 式 不 取 等 号 。 则 存在 x" A" ev" 使 得 它们 分 别 
为 原 问题 和 对 偶 问题 的 最 优 解 .并 且 

р = d° = L(x°* ,4A" ,v") 

Slater 条 件 是 强 对 偶 成 立 的 充分 条 件 而 不 是 必要 条 件 。 强 对 偶 的 意义 在 于 人 们 可 以 将 
求 原 问题 转化 为 求 对 偶 问 题 , 有 些 时 候 对 偶 问 题 比 原 问 题 更 容易 求解 。 强 对 偶 只 是 将 原 问 
题 转化 成 对 偶 问题 ,而 这 个 对 偶 问 题 怎么 求解 则 是 另外 一 个 问题 。 
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对 于 带 等 式 约束 的 最 优化 问题 可 以 用 拉 格 朗 日 乘 数 法 求解 ,对 于 既 有 等 式 约束 又 有 不 
等 式 约束 的 问题 ,也 有 类 似 的 条 件 定义 函数 的 最 优 解 , 即 KKT 条 件 , 它 可 以 看 作 拉 格 朗 日 
乘 数 法 的 扩展 。 对 于 如 下 优化 问题 : 
min f(x) 
g(x) S 0, i=1,2, sq 
hi(x)=0, i=1,2,--,p 
和 拉 格 朗 日 对 偶 的 做 法 类 似 ,KKT 条 件 构 如 下 乘 子 函 数 : 


b q 
Læ, p) = f(x) + 33AR;GO + Pg. GO 
j=1 k=1 


Айр 称 为 KKT 乘 子 。 在 最 优 解 处 x 应 该 满足 如 下 条 件 : 
V L(x") = 0 
Hk = 0 


g(x) = 0 


А 
А 
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h;(x*) = 0 
g(x) < 0 
AE SRE OR hj (x")=0 和 不 等 式 约束 gi(x* NO 是 本 身 应 该 满足 的 约束 ,VY L(x" )= 0 
和 之 前 的 拉 格 朗 日 乘 数 法 一 样 。 唯 一 多 了 关于 gi;(x) 的 条 件 : 
paga x" ) = 0 
可 以 分 两 种 情况 讨论 。 如 果 
g(x") <0 
要 满足 ag x") —0 的 条 件 ,那么 必须 有 jp 二 0。 如 果 
g(x") = 0 
则 jy 的 取 值 自由 ,只 要 满足 大 于 或 等 于 0 即 可 ,此 时 极 值 在 边界 点 处 取得 。 需 要 注意 的 是 ， 
KKT 条 件 只 是 取得 极 值 的 必要 条 件 而 不 是 充分 条 件 。 


228 拟 牛 顿 法 


牛顿 法 在 每 次 迭代 时 需要 计算 出 Hessian 矩阵 ,并 且 求解 一 个 以 该 矩阵 为 系数 矩阵 的 
线性 方程 组 ,Hessian 矩阵 可 能 不 可 逆 。 为 此 提出 了 一 些 改 进 的 方法 ,典型 的 代表 是 拟 牛顿 
法 。 拟 牛顿 法 的 思路 是 不 计算 目标 函数 的 Hessian 矩阵 然后 求 逆 和 矩阵, 而 是 通过 其 他 手段 
得 到 一 个 近似 Hessian 矩阵 逆 的 和 矩阵。 具体 做 法 是 构造 一 个 近似 Hessian XB [Ve 2X Hc y f pe 
的 正定 对 称 和 矩阵 ,用 该 矩阵 进行 牛顿 法 的 迭代 。 

将 函数 在 xt+: 点 处 进行 泰勒 展开 ,忽略 二 次 以 上 的 项 ,有 

f(x) ~ fO + VF Cre (x хаһ) + ta- ee V? f xy (x — Xe) 

对 上 式 两 边 同 时 取 梯 度 , 有 

V f(x) ~ VF Gia + V! f aD (x — xia) 
4 x=x,,# 


VS (хь) — VfGa) 22 V! f(xyaD (xi — x1) 


可 以 简写 为 
Sen — gi © Hia Goa — X, ) 
如 果 令 
Sk = Xen — Xk 
Ук = 8н gt 
上 式 可 以 简写 为 
ye ~ HiS: 
Вр 


s, ~ Нум у, 

这 个 条 件 称 为 拟 牛 顿 条 件 , 用 来 近似 代 蔡 Hessian 矩阵 的 矩阵 需要 满足 此 条 件 。 下 面 
介绍 拟 牛 顿 法 的 一 种 典型 实现 一 一 BFGS 算法 。BFGS 算法 是 它 的 4 个 发 明 人 Broyden、 
Fletcher、Goldfarb 和 Shanno 名 字 首 字母 的 简写 。 算 法 的 思想 是 构造 Hessian 矩阵 的 一 个 
近似 矩阵 : 


А 
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并 和 迭代 更 新 这 个 矩阵 : 
Bia = В, + AB, 
该 矩阵 的 初始 值 Bo 为 单位 阵 T. jX FÉ, ЗЕ Ue B IB] 88 SË ЛЕ BP W BJ ME IE RR Е AB, 的 构 
造 。 其 计算 公式 为 
AB, = аии" + Вук" 








其 中 ,两 个 向 量 的 计算 公式 为 
u= у 
v = B, 
两 个 系数 的 计算 公式 为 
二 
EE Xii 
= 1 
p= si BiS} 
因此 有 
— X: _ B,s,s;B, 
LEE YES siB,s, 
算法 的 完整 流程 如 下 。 


CD 给 定 优化 变量 的 初始 值 x RUE BE BI EE є, 5 Bo 一 TI 人 一 0。 
(2) 确定 搜索 方向 di =— Brg. 

(3) 搜索 得 到 步 长 4, 令 з, А, s Xr хь th 

(4) 如 果 | ga. | <e, 则 迭代 结束 。 

(5) 计算 y,— gii — £i. 


T » 
В = уук — Bis p8i By 
(6) 计算 Buss Bot ya, Fš Pana e 


(7) 令 k=k 十 1, 返 回 步 又 (2)。 
每 一 步 迭 代 需 要 计算 nox n 的 矩阵 В, , 当 交 很 大 时 ,存储 该 矩阵 非常 耗费 内 存 。 为 此 提 
出 了 改进 方案 L-BFGS。 其 思想 是 不 存储 完整 的 矩阵 Bi ,只 存储 向 量 s, 和 yi о 


2.2.9 面临 的 问题 


无 论 是 梯度 下 降 法 还 是 牛顿 法 ,寻找 的 都 是 梯度 为 0 的 点 ,梯度 为 0 只 是 取得 极 值 的 
必要 条 件 而 非 充分 条 件 。 因 此 .完全 有 可 能 会 出 现 梯度 为 0 但 不 是 极 小 值 的 情况 ,这 里 有 
两 个 问题 。 

(1) 局 部 极 小 值 。 算 法 找到 的 梯度 为 0 的 点 确实 是 极 值 点 ,但 不 是 全 局 极 小 值 。 

(2) 鞍点 。 梯 度 为 0 的 点 处 Hessian 矩阵 不 定 , 这 连 局 部 极 小 值 都 不 是 。 2.5 Eik 
点 的 示意 图 。 

在 图 2.5 中 ,我 们 要 优化 的 目标 函数 为 一 x? 十 y* ,如 果 以 (0,4) 作 为 初始 迭代 点 ,牛顿 法 
最 后 陷 和 人 鞍点 。 
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2.3 概率 论 


如 果 将 机 器 学 习 问 题 处 理 的 变量 看 成 是 随机 变量 , 则 可 以 用 概率 论 的 方法 来 建 模 。 本 
Tr fiij 3. Jr Бан 2J 8 22 08 FD ЖЕТЕ ЯД. SS ЕТЕН E A D И] ЯПА. ШЙ, 36 АЙ, KL 
散 度 等 概念 将 在 具体 的 算法 中 分 别 进 行 介绍 ,在 本 节 中 不 作 统一 介绍 。 


2.3.1 随机 事件 与 概率 


随机 事件 a 是 指 可 能 发 生 也 可 能 不 发 生 的 事件 , 它 有 一 个 发 生 概 率 p(a), 且 该 概率 值 
满足 如 下 约束 : 
0< p(a) <1 
即 概率 值 为 0 一 1, 这 个 值 越 大 ,事件 越 可 能 发 生 。 如 果 一 个 随机 事件 发 生 的 概率 为 0, 称 为 
不 可 能 事件 ;如 果 一 个 随机 事件 发 生 的 概率 为 1, 则 称 为 必然 事件 。 例 如 , 抛 一 枚 硬币 ,可 能 
正面 朝 上 ,也 可 能 反面 朝 上 ,两 种 事件 发 生 的 概率 是 相等 的 ,各 为 0. 5。 


232 ”条件 概率 


对 于 两 个 相关 的 随机 事件 a 和 2 ,在 事件 发 生 的 条 件 下 事件 2 发 生 的 概率 称 为 条 件 概 
% pla) EXA 
— blab) 

pla) 
ШШ a 和 4 同时 发 生 的 概率 与 a 发 生 的 概率 的 比值 。 如 果 事 件 a 是 因 , 事 件 o 是 果 , 则 概率 
plbla) 称 为 先 验 概率 。 后 验 概率 定义 为 


pla | b) 


bola 


— pab) 
рб) 





D 


А 
40; WEESSER 


贝 叶 斯 公式 指出 : 
pla) pO | a) = p(b)p(a | b) 
变形 后 为 


— pGQD pO | a) 
pla | b) t BU — 


贝 叶 斯 公式 描述 了 先 验 概率 和 后 验 概 率 之 间 的 关系 。 如 果 有 polos pb) MA 
bCG |) — pla) WWE BEADLE a Alb 独立 。 如 果 随 机 事件 c 和 2 独立 , 则 有 
plasb) = p(a)p(b) 
BY DA E TAE SCE THE. Se BL AE a f= 162,00 相互 独立 , 则 它们 同 
时 发 生 的 概率 等 于 它们 各 自发 生 的 概率 的 乘积 : 


ba a) = [ID 
i=l 
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随机 变量 是 取 值 有 多 种 可 能 并 且 取 每 个 值 都 有 一 个 概率 的 变量 。 它 分 为 离散 型 和 连续 
型 两 种 ,离散 型 随机 变量 的 取 值 为 有 限 个 或 者 无 限 可 列 个 (整数 集 是 典型 的 无 限 可 列 个 ) , 连 
续 型 随机 变量 的 取 值 为 无 限 不 可 列 个 (实数 集 是 典型 的 无 限 不 可 列 个 )。 
描述 离散 型 随机 变量 的 分 布 情况 的 工具 是 概率 分 布 表 , 它 由 随机 变量 取 每 个 值 的 概率 
p(x 三 zi) 二 pi; 依次 排列 组 成 。 它 满足 : 
pi 20 
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表 2. 2 是 一 个 随机 变量 的 概率 分 布 表 的 例子 。 
R22 一 个 随机 变量 的 概率 分 布 表 








x mox d x mox 值 
1 0.1 3 0.2 
2 0.5 4 0.2 














把 分 布 表 推广 到 无 限 情况 .就 可 以 得 到 连续 型 随机 变量 的 概率 密度 函数 。 一 个 函数 如 
果 满 足 如 下 条 件 , 则 可 以 称 为 概率 密度 函数 : 
f(x) > 0 
[лса =1 
这 可 以 看 作 离 散 型 随机 变量 的 推广 ,积分 值 为 1 对 应 于 取 各 个 值 的 概率 之 和 为 1。 分 
布 函数 是 概率 密度 函数 的 变 上 限 积分 , 它 定义 为 
FG) = p(z < y) = [reas 
显然 这 个 函数 是 增 函 数 , 而 且 其 最 大 值 为 1。 分 布 函数 的 意义 是 随机 变量 +< y 的 概 
3. TERE ,连续 型 随机 变量 取 某 一 个 值 的 概率 为 0, 但 是 其 取 值 落 在 某 一 个 区 间 的 值 可 以 不 
H0: 


a 
SIE азия (41 
E 
pla < z < z+) =| f(r)dr = FG) — F(x) 


最 常见 的 连续 型 概率 分 布 是 正 态 分 布 ,也 称 为 高 斯 分 布 。 它 的 概率 密度 函数 为 


2 
Gg 
e 22 


fla) = 





TO 
其 中 ,w о 分 别 为 均值 和 方差 。 现 实 世界 中 的 很 多 数据 ,例如 人 的 身高 .体重 .寿命 等 都 
近似 服从 正 态 分 布 。 另 外 一 种 常用 的 分 布 是 均匀 分 布 ,如 果 随 机 变量 x 服从 [a,6] 的 均匀 分 
布 , 则 其 概率 密度 函数 为 
1 
f(a) = }5—а' 
0. х > В 
编程 语言 中 的 随机 函数 就 是 服从 离散 的 均匀 分 布 。 二 项 分 布 也 是 一 种 常用 的 分 布 ,这 
是 一 种 离散 型 随机 变量 的 概率 分 布 。 变 量 取 值 只 能 是 0 和 1, 取 这 两 种 值 的 概率 为 
р(х = 1) = р 





a < z= 6 


р(х=0)=1—р 
其 中 , 为 (0,1) 的 一 个 实数 。 对 于 二 分 类 问题 ,分 类 结果 可 以 看 作 二 项 分 布 。 
23. 数学 期 望 与 方差 

数学 期 望 是 加 权 平 均值 的 抽象 ,是 随机 变量 在 概率 意义 下 的 均值 。 对 于 离散 型 随机 变 
ht xz, 数学 期 望 定义 为 

E(x) = ` rip (a) 
对 于 表 2.2 中 的 随机 变量 , 它 的 数学 期 望 为 
1X0.1 十 2X0.5 十 3X0.2 十 4X0.2 一 2.5 
方差 定义 为 
DG) = У) (a, — EG! p(x) 
对 于 表 2.2 中 的 随机 变量 , 它 的 方差 为 
(1—2, 5)? X0. 1+(2—2.5)? X0.5+(3—2. 5)? X0. 2+(4—2. 5)? X0, 2—0. 85 

推广 到 连续 的 情况 ,假设 有 一 个 连续 型 随机 变量 > 的 概率 密度 函数 是 f(x) ,其 数学 期 

望 定义 为 
E(x) = [алое 

根据 定 积分 的 定义 ,可 以 看 到 ,连续 型 就 是 离散 型 的 极限 情况 。 对 于 连续 型 随机 变量 ， 

方差 定义 为 
pe) = а — EG» fGodz 

方差 反映 的 是 随机 变量 取 值 变化 的 程度 ,方差 越 小 ,随机 变量 的 变化 幅度 越 小 ,反之 

23.5 ”随机 向 量 


上 面 定义 的 随机 变量 是 单个 变量 ,如 果 推 广 到 多 个 变量 ,就 得 到 随机 向 量 。 随 机 向 量 x 
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是 一 个 向 量 , 它 的 每 个 分 量 都 是 随机 向 量 。 同 样 ,随机 向 量 有 离散 型 和 连续 型 两 种 情况 。 描 
述 离散 型 随机 向 量 分 布 的 还 是 概率 分 布 表 : 
р(х = x) 
对 于 二 维 离散 型 随机 向 量 , 这 是 一 个 二 维 表 
р(х = xiy = y;) 

描述 连续 型 随机 向 量 的 是 联合 概率 密度 函数 ,这 是 一 个 多 元 函数 。 如 果 是 二 维 随机 变 

量 , 则 其 联合 概率 密度 函数 满足 
J Gy +z |) 20 


+= (+ 
| | fa 5.%2)dx,dxz = 1 


更 高 维 的 概率 密度 函数 也 需要 满足 这 两 个 条 件 。 
对 于 离散 型 随机 向 量 , 边 缘 概 率 定义 为 


pla = xi) Dplr хоу = yj) 
对 于 连续 型 随机 向 量 ,边缘 密度 函数 定义 为 
f(a) = [Lr »x2)dxs 








peo 
fla.) = | f Ga 22) 


它 是 对 其 中 一 个 分 量 的 积分 。 条 件 概率 密度 函数 定义 为 


yz fn 2) 
f(a) 


有 了 条 件 密度 函数 ,就 可 以 定义 两 个 随机 变量 的 之 间 的 独立 性 : 
far | z+) = f(x) 
显然 ,如 果 两 个 随机 变量 独立 , 则 有 : 
fGri 3) = fla) f (a2) 
描述 两 个 随机 变量 之 间 线 性 关系 强 弱 的 是 协 方差 ,定义 为 
cov(zi,z,) = E( (x, — Е(хү))(х; 一 下 (zz))) 
可 以 证 明 下 式 成 立 : 
cov(x »z;) = E(xzixs) — E(z, )E(x;) 

对 于 维 随机 向 量 x ,其 任意 两 个 分 量 z, Fn; 之 间 的 协 方差 cov Gr; zi) 组 成 的 矩阵 称 
为 协 方差 矩阵 , 协 方差 矩阵 是 一 个 对 称 和 矩阵。 

将 一 维 的 正 态 分 布 推广 到 高 维 ,可 以 得 到 多 维 正 态 分 布 概率 密度 函数 为 

f(x) Га! La DE m) 

其 中 ,x 为 n 维 随机 向 量 ;p 为 均值 向 量 ; 对 为 协 方差 矩阵 。 正 态 贝 叶 斯 分 类 器 和 高 斯 混合 模 
型 都 假设 向 量 服从 这 种 分 布 。 


236 最 大 似 然 估计 


有 些 应 用 中 已 知 样本 服从 的 分 布 ,例如 服从 正 态 分 布 ,但 是 要 估计 分 布 函数 的 参数 Ө. 
例如 均值 和 协 方差 。 确 定 这 些 参数 常用 的 一 种 方法 是 最 大 似 然 估计 。 


fla | z+ 
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最 大 似 然 估 计 (Maximum Likelihood Estimate, MLE) 构 造 一 个 似 然 函 数 ,通过 让 似 然 
函数 最 大 化 ,求解 出 9。 最 大 似 然 估计 的 直观 解释 是 ,寻求 一 组 参数 ,使 得 给 定 的 样本 集 出 
现 的 概率 最 大 。 

假设 样本 服从 的 概率 密度 函数 为 p(x;0) ,其 中 ,x 为 随机 变量 ,0 为 要 估计 的 参数 。 给 
定 一 组 样本 x ,i 二 1,…,/, 它 们 都 服从 这 种 分 布 ,并 且 相 互 独立 。 最 大 似 然 估计 构造 如 下 似 
ХЖ. 


100) = Toc T 


其 中 ,x; 是 已 知 量 ,这 是 一 个 关于 Ө 的 函数 ， 我 们 要 让 该 函数 的 值 最 大 化 ,这 样 做 的 依据 是 
这 组 样本 发 生 了 ,因此 ,应 该 最 大 化 它们 发 生 的 概率 , 即 似 然 函 数 。 这 就 是 求解 如 下 最 优化 
问题 : 


тах ПС 
乘积 求 导 不 易 处 理 , 因 此 对 该 函数 下 对 数 ， 得 到 对 数 似 然 函 数 ; 


In L(0) = In lacob - Yn b; i6) 
i=l i=] 
后 要 求解 的 问题 为 
1 
max Уа p(x;;0) 
i=l 


这 是 一 个 不 带 约束 的 优化 问题 ,可 以 用 梯度 下 降 法 或 者 牛顿 法 求解 。 在 第 11 章 的 
logistic 回归 ,第 16 章 的 隐 马 尔 可 夫 模 型 中 将 会 用 最 大 似 然 估计 确定 函数 的 参数 。 
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基本 概念 


本 章 介绍 机 器 学 习 中 的 常用 概念 ,包括 算法 的 分 类 、 算 法 的 评价 指标 ,以 及 模型 选择 问 
题 。 按 照样 本 数据 是 否 带 有 标签 值 , 可 以 将 机 器 学 习 算法 分 为 有 监督 学 习 与 无 监督 学 习 。 
按照 标签 值 的 类 型 ,可 以 将 有 监督 学 习 算法 进一步 细 分 为 分 类 问题 与 回归 问题 。 按 照 求解 
的 方法 ,可 以 将 有 监督 学 习 算法 分 为 生成 模型 与 判别 模型 。 

比较 算法 的 优 劣 需要 使 用 算法 的 评价 指标 。 对 于 分 类 问题 ,常用 的 评价 指标 是 准确 
率 ; 对 于 回归 问题 ,是 回归 误差 。 二 分 类 问题 由 于 其 特殊 性 ,我 们 为 它 定 义 了 精度 与 召回 
率 指标 ,在 此 基础 上 可 以 得 到 ROC 曲线 。 对 于 多 分 类 问题 ,常用 的 评价 指标 是 混淆 
和 矩阵 。 

泛 化 能 力 是 衡量 有 监督 学 习 算法 的 核心 标准 。 与 模型 泛 化 能 力 相 关 的 概念 有 过 拟 合 与 
欠 拟 合 , 对 泛 化 误差 进行 分 解 可 以 得 到 方差 与 偏差 的 概念 。 正 则 化 技术 是 解决 过 拟 合 问题 
的 一 种 常见 方法 ,在 本 章 中 我 们 将 会 介绍 它 的 实例 一 一 岭 回归 算法 。 


3.1 算法 分 类 


按照 样本 数据 的 特点 以 及 求解 手段 ,机 器 学 习 算法 有 不 同 的 分 类 标准 。 这 里 介绍 有 监 
督学 习 和 无 监督 学 习 、 分 类 问题 与 回归 问题 .生成 模型 与 判别 模型 的 概念 。 强 化 学 习 是 一 种 
特殊 的 机 器 学 习 算法 , 它 的 原理 将 在 第 20 章 详细 介绍 。 


3.1.1 监督 信号 


根据 样本 数据 是 否 带 有 标签 值 (label) ,可 以 将 机 器 学 习 算法 分 成 有 监督 学 习 和 无 监督 
学 习 两 类 。 要 识别 26 个 英文 字母 图 像 .我 们 需要 将 每 张 图 像 和 它 是 哪个 字符 ( 即 其 所 属 的 
类 别 ) 对 应 起 来 ,图 像 的 类 别 就 是 标签 值 。 

有 监督 学 习 (supervised learning) 的 样本 数据 带 有 标签 值 , 它 从 训练 样本 中 学 习 得 到 一 
个 模型 ,然后 用 这 个 模型 对 新 的 样本 进行 预测 推断 。 样 本 由 输入 值 与 标签 值 组 成 

(x.y) 
其 中 ,x 为 样本 的 特征 向 量 , 是 模型 的 输入 值 ;y 为 标签 值 .是 模型 的 输出 值 。 标 签 值 可 以 是 
整数 ,也 可 以 是 实数 ,还 可 以 是 向 量 。 有 监督 学 习 的 目标 是 给 定 训练 样本 集 , 根 据 它 确定 映 
ШЇ РЕЖ: 
y= f(x) 

确定 这 个 函数 的 依据 是 它 能 够 很 好 地 解释 训练 样本 ,让 函数 输出 值 与 样本 真实 标签 值 

之 间 的 误差 最 小 化 ,或 者 让 训练 样本 集 的 似 然 函数 最 大 化 。 训 练 样本 数 是 有 限 的 ,而 样本 集 
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所 有 可 能 的 取 值 在 很 多 情况 下 是 一 个 无 限 集 , 因 此 ,只 能 从 中 选取 一 部 分 样本 参与 训练 。 整 
个 样本 的 集合 称 为 样本 空间 。 

日 常生 活 中 的 很 多 机 器 学 习 应 用 ,如 垃圾 邮件 分 类 ,手写 文字 识别 \ 人 脸 识别 .语音 识别 
等 都 是 有 监督 学 习 。 这 类 问题 需要 先 收集 训练 样本 ,对 样本 进行 标注 ,用 标注 好 的 样本 训 模 
型 ,然后 用 模型 对 新 的 样本 进行 预测 。 

无 监督 学 习 (Unsupervised Learning) 对 没有 标签 的 样本 进行 分 析 , 发 现 样本 集 的 结构 
或 者 分 布 规律 。 无 监督 学 习 的 典型 代表 是 聚 类 ,表示 学 习 和 数据 降 维 ,它们 处 理 的 样本 都 不 
带 有 标签 值 。 

聚 类 也 是 分 类 问题 ,但 没有 训练 过 程 。 算 法 把 一 批 没有 标签 的 样本 划分 成 多 个 类 ,使 得 
在 某 种 相似 度 指标 下 每 一 类 中 的 样本 尽量 相似 ,不 同类 的 样本 之 间 尽 量 不 同 。 聚 类 算法 的 
样本 只 有 输入 向 量 而 没有 标签 值 , 也 没有 训练 过 程 。 在 第 18 章 中 详细 介绍 各 种 典型 的 聚 类 
算法 。 

无 监督 学 习 的 另 一 类 典型 算法 是 表示 学 习 , 它 从 样本 中 自动 学 习 出 有 用 的 特征 ,用 于 分 
类 和 聚 类 等 目的 。 典 型 的 实现 有 自动 编码 器 和 受 限 玻 尔 兹 曼 机 .它们 的 输入 是 没有 标签 值 
的 数据 (如 图 像 或 语音 信号 ) ,输出 值 是 提取 的 特征 向 量 。 在 第 14 章 详细 介绍 自动 编码 器 和 
受 限 玻 尔 效 曼 机 的 原理 。 

数据 降 维 也 是 一 种 无 监督 学 习 算 法 , 它 将 n 维 空间 中 的 向 量 x 通过 某 种 映射 函数 映射 
到 更 低 维 的 mm 维 空 间 中 ,在 这 里 meni 

y= ф(х) 

通过 将 数据 映射 到 低 维 空间 ,可 以 更 容易 地 对 它们 进行 分 析 与 显示 。 如 果 映 射 到 二 维 
或 三 维 空间 ,可 以 直观 地 将 数据 可 视 化 。 第 7 章 将 详细 介绍 数据 降 维 算法 。 

对 于 有 些 应 用 问题 ,标注 训练 样本 的 成 本 很 高 。 如 何 利用 少量 有 标签 样本 与 大 量 无 标 
签 样 本 进行 学 习 是 一 个 需要 解决 的 问题 ,一 种 方法 是 半 监 督学 习 (Semi-Supervised 
Learning)。 半 监督 学 习 的 训练 样本 是 有 标签 样本 与 无 标签 样本 的 混合 ,一般 情况 下 ,无 标 
签 样本 的 数量 远大 于 有 标签 样本 数 。 半 监督 学 习 的 原理 在 第 19 章 详细 讲述 。 


3.1.2 分 类 问题 与 回归 问题 


在 有 监督 学 习 中 ,如 果 样 本 的 标签 是 整数 . 则 预测 函数 是 一 个 向 量 到 整数 的 映射 
Riz 
这 称 为 分 类 问题 。 样 本 的 标签 是 其 类 别 编号 ,一 般 从 0 或 者 1 开始 编号 。 如 果 类 型 数 为 2， 
则 称 为 二 分 类 问题 ,类 别 标签 一 般 设置 成 十 1 和 一 1, 分 别 对 应 正 样本 和 负 样 本 。 例 如 ,如 果 
要 判断 一 张 图 像 是 否 为 人 脸 , 则 正 样 本 为 人 脸 , 负 样本 为 非 人 脸 。 

对 于 分 类 问题 ,如 果 预 测 函 数 是 线性 函数 则 称 为 线性 模型 , 它 是 维 空间 的 线性 划分 。 
线性 函数 是 超 平面 ,在 二 维 平面 中 是 直线 ,在 三 维 空间 中 是 平面 。 二 分 类 问题 的 线性 预测 函 
数 为 

sgnOw! x +b) 
其 中 ,w 是 权重 向 量 ; 是 偏 置 项 。 线 性 支持 向 量 机 logistic 回归 等 属于 线性 模型 ,它们 的 预 
测 函 数 都 是 上 面 这 种 形式 。 
非 线性 模型 的 决策 函数 是 非 线 性 函数 ,分 类 边界 是 n 维 空间 中 的 曲面 。 在 实际 应 用 中 





А 
46} ESSER 


大 多 数 情况 下 数据 是 非 线性 的 ,因此 ,要 求 预测 函数 具有 非 线 性 建 模 的 能 力 。 使 用 非 线性 核 
的 支持 向 量 机 ,人 工 神经 网 络 ,决策 树 等 都 属于 非 线性 模型 。 

在 有 监督 学 习 中 ,如 果 标 签 值 是 连续 实数 , 则 称 为 回归 问题 ,此 时 预测 函数 是 向 量 到 实 
数 的 映射 : 

R'—R 

例如 ,我 们 根据 一 个 人 的 学 历 . 工 作 年 限 等 特征 预测 他 的 收入 ,这 就 是 一 个 回归 问题 , 因 
为 收入 是 实数 值 而 不 是 类 别 标签 。 

与 分 类 问题 一 样 ,预测 函数 可 以 是 线性 函数 也 可 以 是 非 线 性 函数 。 如 果 是 线性 函数 则 
称 为 线性 回归 。 

对 于 有 监督 学 习 , 机 器 学 习 算 法 在 训练 时 的 任务 是 给 定 训练 样本 集 ,选择 预测 函数 的 类 
型 ,然后 确定 函数 的 参数 值 ,如 线性 模型 中 的 w 和 6b。 确定 参数 的 常用 方法 是 构造 一 个 损失 
函数 (Loss Function) , 它 表示 预测 函数 的 输出 值 与 样本 标签 值 之 间 的 误差 。 对 所 有 训练 样 
本 的 误差 求 平均 值 ,这 个 值 是 参数 0 的 函数 : 


ming L. (0) = 1а :0) 


HEP Ls 500 29 884 FEAR АО K РА REL 为 训练 样本 数 。 训练 的 目标 是 最 小 化 损失 函数 , 求 
解 损失 函数 的 极 小 值 可 以 确定 9 的 值 ,从 而 确定 预测 函数 。 对 机 器 学 习 算法 来 说 关键 的 一 
步 是 确定 损失 函数 ,一旦 它 确定 了 , 剩 下 的 就 是 求解 最 优化 问题 ,这 在 数学 上 一 般 有 标准 的 
解决 方案 。 

下 面 以 线性 回归 为 例 来 说 明 有 监督 学 习 算法 的 训练 过 程 。 假设 有 /个 训练 样本 
Gi «y ,其 中 ,xi; 为 特征 向 量 ,y; 为 实数 标签 值 。 线 性 回归 的 预测 函数 为 

f(x) = ө#їх+Ь 

权重 向 量 w 和 偏 置 2 是 训练 要 确定 的 参数 。 定 义 损失 函数 为 误差 平方 和 的 均值 , 即 均 

方 误差 : 
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LGD) — ya 
将 回归 函数 代入 损失 函数 的 定义 ,可 以 得 到 如 下 损失 函数 
L= у +b— y)? 


为 简化 表述 ,将 权重 向 量 和 特征 向 量 进行 增 广 ,即将 w 和 2 进行 合并 ,得 到 扩充 后 的 
向 量 : 
[wb] >w 
类 似 地 ,对 x 也 进行 扩充 : 
[x.1] x 
目标 函数 可 以 简化 为 


一 к=?) (wi x, — y)* 
可 以 证 明 这 个 目标 函数 是 凸 函 数 。 


Д 
L= zi (i x,)? + y? — 2y wx) 
i=1 


它 的 二 阶 偏 导数 为 
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其 中 ,zu 为 第 4& 个 样本 的 特征 向 量 的 第 i 个 分 量 。 因 此 ,目标 函数 的 Hessian 矩阵 为 
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其 中 ,X 是 所 有 样本 的 特征 向 量 按照 列 构 成 的 矩阵 。 对 于 任意 不 为 0 的 向 量 x, 有 

xTX' Xx = (Xx)'(Xx) > 0 
因此 ,Hessian 矩阵 是 半 正 定 和 矩阵 ,上 面 的 优化 问题 是 一 个 凸 优化 问题 ,可 以 用 梯度 下 降 法 
或 牛顿 法 求解 。 损 失 函 数 对 rw 的 偏 导数 为 

= T> (и? x; — yxy 

得 到 对 权重 的 梯度 之 后 ,可 以 用 梯度 下 降 法 进行 更 新 。 由 于 是 凸 优化 问题 ,因此 ,梯度 

下 降 法 可 以 保证 收敛 到 全 局 最 优 解 。 也 可 以 直接 寻找 梯度 为 0 的 点 来 解 此 问题 ,求解 线性 
方程 组 ,这 就 是 经 典 的 最 小 二 乘法 。 


3.1.3 判别 模型 与 生成 模型 


按照 求解 的 方法 ,可 以 将 分 类 算法 分 成 判别 模型 和 生成 模型 。 给 定 特征 向 量 x 与 标签 
值 y ,生成 模型 对 联合 概率 p(x,y) 建 模 ,判别 模型 对 条 件 概率 p(y|x) 进 行 建 模 。 另 外 ,不 
使 用 概率 模型 的 分 类 器 也 被 归 类 为 判别 模型 , 它 直 接 得 到 预测 函数 而 不 关心 样本 的 概率 
分 布 : 





y= f(x) 

这 3 种 模型 也 分 别 被 称 为 生成 学 习 、 条 件 学 习 和 判别 学 习 。 

除 此 之 外 ,对 生成 模型 和 判别 模型 还 有 另外 一 种 定义 。 生 成 模型 对 条 件 概 率 p(x|y) 建 
模 ,判别 模型 对 条 件 概 率 p(y|x) 建 模 。 前 者 可 以 用 来 根据 标签 值 y 生成 随机 的 样本 数据 
,而 后 者 则 根据 样本 特征 向 量 x 的 值 判 断 它 的 标签 值 y 。 

常见 的 生成 模型 有 贝 叶 斯 分 类 器 、 高 斯 混合 模型 隐 马 尔 可 夫 模 型 受 限 玻 尔 兹 曼 机 、 生 
成 对 抗 网 络 等 。 典 型 的 判别 模型 有 决策 树 、kNN 算法 、 人 工 神 经 网 络 、 支 持 向 量 机 logistic 
回归 、AdaBoost 算法 等 。 


3.1.4 强化 学 习 
强化 学 习 是 一 类 特殊 的 机 器 学 习 算法 , 它 根 据 输 入 数据 确定 要 执行 的 动作 ,输入 数据 是 
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环境 参数 。 与 有 监督 学 习 算 法 类 似 , 这 里 也 有 训练 过 程 。 训 练 时 ,对 正确 的 动作 做 出 奖励 ， 
对 错误 的 动作 进行 惩罚 ,训练 完成 之 后 用 得 到 的 模型 进行 预测 。 在 第 20 章 中 详细 介绍 这 种 
算法 。 


3.2 模型 评价 指标 


人 们 需要 评价 各 种 机 器 学 习 算 法 和 模型 的 好 坏 , 以 进行 比较 ,因此 ,需要 定义 衡量 模型 
精度 的 指标 。 有 监督 学 习 分 为 训练 与 预测 两 个 阶段 ,一 般 用 与 训练 样本 集 不 同 的 另 一 个 样 
本 集 统 计算 法 的 精度 。 更 复杂 的 做 法 是 再 引入 一 个 验证 集 , 用 于 确定 模型 的 某 些 人 工 设 定 
的 参数 ,优化 模型 。 

对 于 分 类 问题 ,评价 指标 是 准确 率 , 它 定义 为 测试 样本 集中 被 正确 分 类 的 样本 数 与 测试 
样本 总 数 的 比值 。 对 于 回归 问题 ,评价 指标 是 回归 误差 ,定义 为 预测 函数 输出 值 与 样本 标签 
值 之 间 的 均 方 误差 。 


3.2.1 精度 与 召回 率 


精度 与 召回 率 是 分 类 问题 的 评价 指标 。 对 于 二 分 类 问题 , 它 的 样本 只 有 正 样本 和 负 样 
本 两 类 。 以 人 脸 检测 问题 为 例 , 正 样本 是 人 脸 , 负 样 本 是 非 人 脸 ; 对 于 垃圾 邮件 分 类 , 正 样本 
是 垃圾 邮件 , 负 样 本 是 正常 邮件 。 

测试 样本 中 正 样本 被 分 类 器 判定 为 正 样本 的 数量 记 为 TPC True Positive) ,被 判定 为 负 
样本 的 数量 记 为 FN(False Negative) ; 负 样 本 被 分 类 器 判定 为 负 样本 的 数量 记 为 TN( True 
Negative) ,被 判定 为 正 样本 的 数量 记 为 FP(False Positive) 。 精 度 定义 为 


TP 
TPTEP 


召回 率 定义 为 
TP 


TP+FN 
精度 是 被 分 类 器 判定 为 正 样本 的 样本 中 真正 的 正 样本 所 占 的 比例 , 值 越 接近 1, 对 正 样 
本 的 分 类 越 准确 。 召 回 率 是 所 有 正 样本 中 被 分 类 器 判定 为 正 样本 的 比例 。 一 种 极端 情况 是 
让 分 类 器 的 输出 都 为 正 样本 ,此 时 召回 率 为 1 ,但 精度 会 非常 低 。 


3.2.2 ROC 曲线 


对 于 二 分 类 问题 ,我 们 可 以 调整 分 类 器 的 灵敏 度 从 而 得 到 不 同 的 分 类 结果 。 将 各 种 灵 
人 敏 度 下 的 准确 率 指标 连 成 一 条 曲线 ,就 是 ROC 曲线 (Receiver Operator Characteristic 
Curve, 接收 机 操作 曲线 ) 。 首 先 定义 真 阳 率 和 假 阳 率 指标 。 真 阳 率 (TPR) 是 所 有 正 样本 被 
分 类 器 判定 为 正 样本 的 比例 : 





TP 
TP+FN 


在 人 脸 检 测 中 正 样本 是 人 脸 ,这 个 指标 就 是 检测 率 , 即 所 有 待 检测 的 人 脸 中 能 够 检测 出 
来 的 比例 。 假 阳 率 CFPR) 是 所 有 负 样 本 被 分 类 器 判定 为 正 样本 的 比例 : 


TPR= 
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对 于 人 脸 检 测 问题 ,这 个 指标 就 是 误 报 率 , 即 不 是 人 脸 的 样本 被 分 类 器 判定 为 人 脸 的 比 
fa], ROC 曲线 的 横 轴 为 假 阳 率 , 纵 轴 为 真 阳 率 。 当 假 阳 率 增加 时 真 阳 率 会 增加 ,因此 , 它 是 
一 条 向 上 增长 的 曲线 。 一 个 好 的 分 类 器 应 该 保证 假 阳 率 低 而 真 阳 率 高 ,因此 ,ROC 曲线 理 
想 情 况 下 应 该 接近 于 直线 y==1, 即 让 曲线 下 面 的 面积 尽 可 能 大 。 
可 以 通过 调整 分 类 器 的 阅 值 ( 即 灵敏 度 ) ,计算 各 种 假 阳 率 下 对 应 的 真 阳 率 绘制 出 ROC 
曲线 。 一 般 情况 下 分 类 器 是 如 下 判定 函数 : 
sgn (f(x)) 
为 了 得 到 它 的 ROC 曲线 ,需要 为 预测 函数 加 上 一 个 调节 灵敏 度 的 国 值 6: 
sgn (f(x) + ë) 
随 着 阔 值 的 增 大 ,被 判定 为 正 样本 的 样本 数 会 增加 ,因此 , 真 阳 率 会 提高 ;但 同时 负 样 本 
被 判定 为 正 样 本 的 数量 也 会 增加 , 假 阳 率 也 会 上 升 。 通 过 调整 < 的 值 ,每 一 个 真 阳 率 都 会 对 
应 于 一 个 假 阳 率 , 将 这 些 点 连 起 来 就 得 到 了 ROC 曲线 。 图 3.1 是 人 脸 检测 算法 ROC 曲线 
的 一 个 例子 。 
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3.1 ROC 曲线 的 一 个 实际 例子 (来 自 FDDB 官网 ) 


图 3.1 取 自 人 脸 检测 数据 集 FDDB 的 官网 , 横 坐 标 是 误 报 数 , 纵 坐 标 是 检测 率 。 各 种 
曲线 代表 各 种 不 同 的 算法 КОС 曲线 越 陡峭 、 越 高 ,算法 的 性 能 越 好 。 
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3.2.3 混淆 矩阵 


多 分 类 问题 的 准确 率 可 以 用 混 消 和 矩阵 定义 。 对 于 A 分 类 问题 ,混淆 矩阵 为 &AXA ROB 
阵 , 它 的 元 素 cj 表示 第 i 类 样本 被 分 类 器 判定 为 第 ) 类 的 数量 : 








CH ° Ch 
如 果 所 有 样本 都 被 正确 分 类 , 则 该 矩阵 为 对 角 阵 。 因 此 ,对 角 线 的 值 越 大 ,分 类 器 的 准 


确 率 越 高 。 
除了 上 面 定义 的 这 些 通用 指标 ,对 于 某 些 特定 的 问题 还 有 特定 的 精度 指标 ,例如 ,机 器 
翻译 .图 像 分 割 等 问题 都 有 自己 的 评价 指标 ,在 后 面 的 章节 中 会 具体 介绍 。 


324 交叉 验证 


对 于 精度 指标 的 计算 ,最 简单 的 做 法 是 选择 一 部 分 样本 作为 训练 集 ,用 另 一 部 分 样本 做 
测试 集 来 统计 算法 的 准确 率 。 交 叉 验 证 (Cross Validation) 是 一 种 更 复杂 的 统计 准确 率 的 
ER., k 折 交 叉 验 证 将 样本 随机 均匀 地 分 成 上 份 ,轮流 用 其 中 的 A 一 1 份 训练 模型 ,1 份 用 
于 测试 模型 的 准确 率 , 用 A 个 准确 率 的 均值 作为 最 终 的 准确 率 。 


3.3 模型 选择 


3.2 节 定 义 了 模型 的 评价 指标 ,本 节 对 导致 模型 误差 的 因素 进行 分 析 , 并 给 出 一 般 性 的 
解决 方案 。 


3.3.1 过 拟 合 与 欠 拟 合 


有 监督 学 习 训练 的 目标 是 在 训练 集 上 的 误差 最 小 化 。 由 于 训练 样本 集 和 测试 数据 集 是 
不 一 样 的 ,因此 需要 考虑 下 面 几 个 问题 。 

(1) 算法 在 训练 集 上 的 表现 。 如 果 在 训练 集 上 表现 不 好 ,一 般 来 说 在 实际 使 用 时 的 精 
度 很 难保 证 。 

(2) 在 训练 集 上 学 习 得 到 的 模型 能 和 否 有 效 地 用 于 测试 集 。 衡 量 指标 为 泛 化 能 力 。 泛 化 

4 能 力 是 指 模型 从 训练 集 推广 到 测试 集 的 能 力 。 

人 们 希望 模型 在 训练 集 上 有 高 准确 率 的 同时 在 
测试 集 上 也 有 高 准确 率 。 针 对 上 面 两 个 问题 定 
义 了 过 拟 合 和 欠 拟 合 的 概念 。 

欠 拟 合 (Under-Fitting) 也 称 为 欠 学 习 , 其 直 
观 表 现 是 训练 得 到 的 模型 在 训练 集 上 表现 差 , 没 
有 学 到 数据 的 规律 。 引 起 欠 拟 合 的 原因 有 : 模型 
本 身 过 于 简单 ,例如 ,数据 本 身 是 非 线 性 的 但 使 
用 了 线性 模型 ;特征 数 太 少 无 法 正确 建立 映射 关 
系 。 图 3.2 是 欠 拟 合 的 示意 图 。 
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图 3. 2 中 数据 是 线性 不 可 分 的 ,这 两 类 样本 的 分 界线 是 曲线 而 非 直 线 , 但 使 用 了 线性 分 
类 器 ,导致 大 量 的 样本 被 错 分 类 ,这 时 更 好 的 选择 是 非 线性 分 类 器 。 

过 拟 合 (Over-Fitting) 也 称 为 过 学 习 , 它 的 直观 表现 是 在 训练 集 上 表现 好 ,但 在 测试 集 
上 表现 不 好 ,推广 泛 化 性 能 差 。 过 拟 合 产生 的 根本 原因 是 训练 数据 包含 抽样 误差 ,在 训练 时 
模型 将 抽样 误差 也 进行 了 拟 合 。 抽 样 误差 是 指 抽样 得 到 的 样本 集 和 整体 数据 集 之 间 的 偏 
差 。 直 观 来 看 ,引起 过 拟 合 的 可 能 原因 如 下 。 

(1) 模型 本 身 过 于 复杂 , 拟 合 了 训练 样本 集中 的 噪声 。 此 时 需要 选用 更 简单 的 模型 ,或 
者 对 模型 进行 裁剪 。 

(2) 训练 样本 太 少 或 者 缺乏 代表 性 。 此 时 需要 增加 样本 数 ,或 者 增加 样本 的 多 样 性 。 

(3) 训练 样本 噪声 的 干扰 ,导致 模型 拟 合 了 | 
这 些 噪 声 ,这 时 需要 剔除 噪声 数据 或 者 改 用 对 噪 
声 不 敏感 的 模型 。 

图 3. 3 是 过 拟 合 的 示意 图 。 

在 图 3. 3 中 训练 样本 存在 噪声 ,为 了 拟 合 它 
们 ,分 类 曲线 的 形状 非常 复杂 ,导致 在 真实 测试 
时 会 产生 错 分 类 。 

过 拟 合 是 有 监督 学 习 算 法 长 期 以 来 需要 解 
决 的 一 个 问题 。 表 3. 1 给 出 了 实际 应 用 时 判断 




















过 拟 合 与 从 拟 合 的 准则 。 图 3.3 过 拟 合 
表 3.1 过 拟 合 与 欠 拟 合 的 判断 标准 
训练 集 上 的 表现 测试 集 上 的 表现 结 论 
不 好 不 好 RWG 
好 不 好 过 拟 合 
好 好 适度 拟 合 
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模型 的 泛 化 误差 可 以 分 解 成 偏差 和 方差 。 偏 差 (Bias) 是 模型 本 身 导 致 的 误差 , 即 错误 
的 模型 假设 所 导致 的 误差 , 它 是 模型 的 预测 值 的 数学 期 望 和 真实 值 之 间 的 差距 。 假 设 样 本 
特征 向 量 为 x, 标 签 值 为 ,要 拟 合 的 目标 函数 为 /(x) ,算法 拟 合 的 函数 为 1(x) , 则 偏差 为 

Bias(f(x)) = ECf GO — f(x)) 

根据 上 面 的 定义 ,高 偏差 意味 着 模型 本 身 的 输出 值 与 期 望 值 差距 很 大 ,因此 会 导致 从 拟 
合 问 题 。 方 差 (Variance) 是 由 于 对 训练 样本 集 的 小 波动 敏感 而 导致 的 误差 。 它 可 以 理解 为 
模型 预测 值 的 变化 范围 , 即 模型 预测 值 的 波动 程度 。 根 据 概率 论 中 方差 的 定义 ,有 

Dœ) = E œ) — E (foo) 

根据 定义 ,高 方差 意味 着 算法 对 训练 样本 集中 的 随机 噪声 进行 建 模 ,从 而 出 现 过 拟 合 问 

题 。 根 据 定义 ,模型 的 总 体 误差 可 以 分 解 为 偏差 的 平方 与 方差 之 和 : 
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Е((у— fG0)*) = Bias? CPG) + DCfG00 + 


Жр so! 为 噪声 项 。 这 称 为 偏差 -方差 分 解 公式 。 下 面 给 出 推导 过 程 。 标 签 值 由 目标 函数 
和 随机 噪声 决定 : 
y= f+e 
其 中 ,e 为 随机 噪声 ,其 均值 为 0, 方 差 为 aoa。 根据 定义 ,模型 的 总 误差 为 
ECy—f)?)= EG! + f —2y f) 
= Е(у) + E(f?) – Ey f) 
= DG) +E*(y) + D(f) + E: (f) — 2fE(f) 
= Dy) +D(f) + (f° — 2fE(f)) + E: (f) 
= Diy) + D(f) + E( f — EC? 





= c! + D( f) + Bias? Cf) 
在 这 里 使 用 了 下 面 的 结论 : 
EG?) = DG) + E! (z) 

如 果 模 型 过 于 简单 ,一 般 会 有 大 的 偏差 和 小 的 方差 ;反之 ,如 果 模 型 复杂 则 会 有 大 的 方 
差 但 偏差 很 小 。 这 是 一 对 矛盾 ,因此 ,需要 在 偏差 和 方差 之 间 做 一 个 折 中 。 

下 面 以 一 个 简单 的 例子 来 解释 偏差 和 方差 的 概念 。 在 射击 时 ,子弹 飞 出 枪 管 之 后 以 曲 
线 轨迹 飞行 。 如 果 不 考虑 空气 的 阻力 ,这 是 一 条 标准 的 抛物 线 ; 如 果 考 虑 空气 阻力 ,是 一 条 
更 复杂 的 曲线 。 我 们 用 弹道 曲线 作为 预测 模型 .在 给 定子 弹 初 速度 的 前 提 下 ,如 果 知 道 靶 心 
与 枪 口 的 距离 ,可 以 通过 调整 枪 口 的 仰角 来 让 子弹 命中 靶 心 。 

如 果 使 用 抛物 线 函 数 就 会 产生 偏差 ,因为 理论 上 子弹 的 落 点 不 会 在 靶 心 而 是 在 靶 心 偏 
下 的 位 置 ,此 时 需要 更 换 弹 道 曲 线 模型 。 无 论 选用 哪 种 弹道 曲线 模型 , 受 子弹 初速 度 、 风 速 、 
枪 口 震动 等 因素 的 影响 ,即使 理论 上 瞄准 的 是 靶 心 ,子弹 还 是 会 随机 散布 在 靶 心 周围 ,这 就 
是 方差 。 


33.3 正则 化 
有 监督 机 器 学 习 算 法 训练 的 目标 是 最 小 化 误差 函数 。 以 均 方 误差 损失 函数 为 例 , 它 是 
预测 值 与 样本 真实 值 的 误差 平方 和 : 
100) = z 22060 — у)? 


其 中 ,y; 是 样本 的 标签 值 ;fo(x;) 是 预测 函数 的 输出 值 ;9 是 模型 的 参数 。 在 预测 函数 的 类 
型 选 定之 后 ,人 们 能 控制 的 只 有 函数 的 参数 。 为 了 防止 过 拟 合 ,可 以 为 损失 函数 加 上 一 个 逢 
罚 项 ,对 复杂 的 模型 进行 惩罚 ,强制 让 模型 的 参数 值 尽 可 能 小 以 使 得 模型 更 简单 ,加 入 惩罚 
项 之 后 损失 函数 为 


1 
100) = Hu fel) — y)! tar (n 
i=1 


函数 的 后 半 部 分 称 为 正则 化 项 ,这 里 的 目标 是 让 它 的 值 尽 可 能 小 , 即 参数 等 于 0 或 者 接 
JE 0. A 为 惩罚 项 系数 ,是 人 工 设 定 的 大 于 0 的 参数 。 正 则 化 项 可 以 使 用 L2 范 数 ( 即 平方 








А 
тА 
®зж “基本 概念 (53 


AD ,也 可 以 使 用 其 他 范 数 ( 如 L1 范 数 , 即 绝对 值 之 和 )。L2 范 数 在 求解 最 优化 问题 时 计算 
简单 ,而 且 有 更 好 的 数学 性 质 , 二 次 函数 的 导数 为 
(Y = 2x 

绝对 值 函 数 在 0 点 不 可 导 , 如 果 不 考虑 这 种 情况 ,其 导数 为 符号 函数 sgn(z)。 53 L2 4H 
比 ,Ll 正则 化 能 更 有 效 地 让 参数 趋向 于 0, 产 生 的 结果 更 稀疏 。 除 了 直接 加 上 正则 化 项 之 
外 ,还 有 其 他 强制 让 模型 变 简单 的 方法 ,如 决策 树 的 剪 枝 算法 、 神 经 网 络 训练 中 的 dropout 
技术 ,提前 终止 技术 等 ,在 后 面 各 章 中 会 详细 介绍 。 

下 面 以 岭 回归 为 例 说 明正 则 化 技术 的 使 用 , 它 是 带 L2 正则 化 项 的 线性 回归 。 在 3. 1.2 
节 中 已 经 介绍 过 ,线性 回归 的 目标 函数 是 线性 函数 ,训练 时 的 目标 是 最 小 化 均 方 误差 损失 
PRA 


Hw — yi)? 
对 w; 求 导 并 且 令 导数 为 0, 可 以 得 到 下 面 的 线性 方程 组 : 
p» ( Sura — у 一 0 


і=1 k=l 


变形 之 后 可 以 得 到 


写成 矩阵 形式 为 下 面 的 线性 方程 组 ， 
(хи = xTy 
ЖЕ XP A a HH CHHERUUE RL P B 


xi 


x — 








x 
这 是 一 个 {хп BU BE. MR R RE Ea E mix RE 7 Pc KY ft ОУ 
w= (xTx) I xTy 
WMR BOE EAS np 2, UU JC 1A E RR tk 4 r A. A A EF L2 正则 化 
项 ,加 上 正则 化 项 之 后 优化 问题 变 为 
min, У) (T x, — уг) +AwTw 
要 求解 的 线性 方程 组 变 为 
(XTX +ADw = XT y 
可 以 解 得 
w= (XTX+AD'XTy 
WRB HEEK . ST ШЕ ИУ FEY) Ж OB Ve np. РА — 4 E Л" 
格 对 角 占 优 , 即 每 一 行 的 主 对 角 线 元 素 的 绝对 值 大 于 该 行 其 他 元 素 的 绝对 值 之 和 , 则 和 矩阵 一 
eM, BRT EAD L2 正则 化 项 ,也 可 以 使 用 Ll 正则 化 项 , 即 LASSO 回归 。 


А 


5а} йез SHA 


Et 
[2] 
[3] 
[4] 


[5] 


参考 文献 


迪 达 ,等 . 模式 分 类 [M]. 李 宏 东 ,等 译 . 北京 : 机 械 工业 出 版 社 ,2003. 

жак. 机 器 学 习 LMDJ. 曾 华军 ,等 译 . 北京 : 机 械 工 业 出 版 社 ,2002. 

Christopher M Bishop. Pattern Recognition and Machine Learning. Berlin: Springer, 2001. 

Kevin P Murphy. Machine Learning: А Probabilistic Perspective. Massachusetts: The MIT 
Press, 2004. 

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning: Data 
Mining, Inference, and Prediction. New York; McGraw Hill. 2001, 





这 部 分 是 本 书 的 主体 ,全面 系统 地 讲解 常用 的 机 器 学 习 算法 与 理论 ,包括 有 
监督 学 习 、 无 监督 学 习 、 半 监督 学 习 、 强 化 学 习 4 类 算法 。 第 4 章 讲解 贝 叶 斯 
分 类 器 ,包括 朴素 贝 叶 斯 与 正 态 贝 叶 斯 分 类 器 。 第 5 章 讲述 决策 树 ,重点 是 分 类 
与 回归 树 。 第 6 章 讲述 KNN 算法 与 距离 度量 学 习 算法 。 第 7 章 讲述 数据 降 维 


算法 ,包括 线性 降 维 算法 一 一 主 成 分 分 析 , 以 及 非 线性 数据 降 维 算法 一 一 流 形 学 
习 。 第 8 章 讲 述 线性 判别 分 析 。 第 9 章 讲 述 人 工 神 经 网 络 , 这 是 深度 学 习 的 基 
础 。 第 10 章 讲述 支持 向 量 机 。 第 11 章 讲述 线性 分 模型 ,包括 logistic 回归 与 
线性 支持 向 量 机 。 第 12 章 讲 述 第 1 种 集成 学 习 算法 一 一 随机 森林 。 第 13 章 讲 
述 第 2 种 集成 学 习 算法 一 一 AdaBoost 算法 。 第 14 章 讲述 深度 学 习 的 思想 与 基本 
概念 ,以 及 自动 编码 器 、 受 限 玻 尔 兹 曼 机 。 第 15 章 讲述 卷 积 神经 网 络 。 第 16 
章 讲述 循环 神经 网 络 。 第 17 章 讲述 生成 对 抗 网 络 。 18 章 讲述 聚 类 算法 , 包 
括 层次 聚 类 、HEM RIA. ЖЕРРИ ЖЖ, WORDS. 第 19 章 讲述 半 监 督学 习 算 
ik. 第 20 章 讲述 强化 学 习 算法 ,包括 经 典 的 算法 与 深度 强化 学 习 。 





贝 叶 斯 分 类 器 


贝 叶 斯 分 类 器 是 一 种 概率 模型 , 它 用 贝 叶 斯 公式 解决 分 类 问题 。 如 果 样 本 的 特征 向 量 
服从 某 种 概率 分 布 , 则 可 以 计算 特征 向 量 属于 一 个 类 的 条 件 概率 ,条 件 概 率 最 大 的 类 为 分 类 
结果 。 如 果 假 设 特征 向 量 各 个 分 量 之 间 相 互 独立 , 则 为 朴素 贝 叶 斯 分 类 器 ;如 果 假 设 特征 向 
量 服从 多 维 正 态 分 布 , 则 为 正 态 贝 叶 斯 分 类 器 。 


4.1 贝 叶 斯 决策 


贝 叶 斯 公式 描述 了 两 个 相关 的 随机 事件 或 随机 变量 之 间 的 概率 关系 。 贝 叶 斯 分 类 
器 中 使 用 贝 叶 斯 公式 计算 样本 属于 某 一 类 的 条 件 概 率 值 ,并 将 样本 判定 为 概率 值 最 大 的 
那个 类 。 

条 件 概率 描述 两 个 有 因果 关系 的 随机 事件 之 间 的 概率 关系 ,p(b1a) 定 义 为 在 事件 a 发 
生 的 前 提 下 事件 4 发 生 的 概率 。 贝 叶 斯 公式 阐明 了 两 个 随机 事件 之 间 的 概率 关系 : 

pÚ | b= pia | b)p(b) 
pla) 

这 一 结论 可 以 推广 到 随机 变量 。 分 类 问题 中 样本 的 特征 向 量 取 值 x 与 样本 所 属 类 型 y 
具有 因果 关系 。 因 为 样本 属于 类 型 y, 所 以 具有 特征 值 x。 如 果 我 们 要 区 分 男性 和 女性 , 选 
用 的 特征 为 脚 的 尺寸 和 身高 。 一 般 情况 下 男性 的 脚 比 女 性 的 大 ,身高 更 高 ,因为 一 个 人 是 男 
性 , 才 具 有 这 样 的 特征 。 分 类 器 要 做 的 则 相反 ,是 在 已 知 样本 的 特征 向 量 为 x 的 条 件 下 反 推 
样本 所 属 的 类 别 。 根 据 贝 叶 斯 公式 有 


_ р(х | y) pO) 
ply | x) БОО 


只 要 知道 特征 向 量 的 概率 分 布 p(x) ,每 一 类 出 现 的 概率 p(y) ,以 及 每 一 类 样本 的 条 件 
概率 p(x|y) ,就 可 以 计算 出 样本 属于 每 一 类 的 概率 p(y|x)。 分 类 问题 只 要 预测 类 别 , 比较 
样本 属于 每 一 类 的 概率 的 大 小 , 找 出 该 值 最 大 的 那 一 类 即 可 ,因此 可 以 忽略 p GO ,因为 它 对 
所 有 类 都 是 相同 的 。 简 化 后 分 类 器 的 判别 函数 为 

arg max,p(x | у) p(y) 

实现 贝 叶 斯 分 类 器 需要 知道 每 类 样本 的 特征 向 量 所 服从 的 概率 分 布 。 现 实 中 的 很 多 随 
机 变量 都 近似 服从 正 态 分 布 ,因此 ,常用 正 态 分 布 来 表示 特征 向 量 的 概率 分 布 。 

贝 叶 斯 分 类 器 是 一 种 生成 模型 。 因 为 使 用 了 类 条 件 概率 p(x|y) 和 类 概率 p(y) ,两 者 
的 乘积 就 是 联合 概率 p(x.y) ,因此 它 对 联合 概率 进行 建 模 。 
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4.2 朴素 贝 叶 斯 分 类 器 


朴素 贝 叶 斯 分 类 器 中 假设 特征 向 量 的 分 量 之 间 相互 独立 ,这 种 假设 简化 了 问题 求解 的 
难度 。 给 定 样本 的 特征 向 量 x, 该 样本 属于 某 一 类 c, 的 概率 为 


b = с)рбх | у = c) 
р(х) 





ply = c; | x) 
由 于 假设 特征 向 量 各 个 分 量 相互 独立 ,因此 有 





р(у = с ПС; [у= с) 

š 7 
其 中 ,2 为 归 一 化 因子 。 上 式 的 分 子 可 以 分 解 为 类 概率 p(c;) 和 该 类 每 个 特征 分 量 的 条 件 概 
Ж рлу у= сі) ЖН. ЖЕ cz) 可 以 设置 为 每 一 类 相等 ,或 者 设置 为 训练 样本 中 每 类 
样本 占 的 比重 。 例 如 ,在 训练 样本 中 第 一 类 样本 占 3076 98 288 70%% ,我 们 可 以 设置 第 一 
类 的 概率 为 0. 3, 第 二 类 的 概率 为 0.7。 剩 下 的 问题 是 估计 类 条 件 概率 值 p(x;|y=ci) ,下 面 
分 离散 型 与 连续 型 变量 两 种 情况 进行 讨论 。 


421 离散 型 特征 


如 果 特 征 向 量 的 分 量 是 离散 型 随机 变量 ,可 以 直接 根据 训练 样本 计算 出 其 服从 的 概率 
分 布 , 即 类 条 件 概率 。 计 算 公式 为 








ply = c, | x) 





pz = o| y= c) = 


RP Ny 6 с 类 训练 样本 数 ;NN; =... = Of c 类 训练 样本 中 ,第 i 个 特征 取 值 为 的 训练 
样本 数 , 即 统计 每 一 类 训练 样本 中 每 个 特征 分 量 取 每 个 值 的 频率 ,作为 类 条 件 概率 的 估计 
值 。 最 后 得 到 的 分 类 判别 函数 为 


arg maxyp (y = ос = | у= с) 
FOP рус) с 类 样本 在 整个 训练 样本 集中 出 现 的 概率 , 即 类 概率 。 其 计算 公式 为 
Py = с) = Ne 


其 中 ,NN,-. 为 第 c 类 训练 样本 的 数量 ,N 为 训练 样本 总 数 。 

在 类 条 件 概率 的 计算 公式 中 ,如 果 N,-,,-. 为 0, 即 特征 分 量 的 某 个 取 值 在 某 一 类 训练 
样本 中 一 次 都 不 出 现 , 则 会 导致 如 果 预 测 样 本 的 特征 分 量 取 到 这 个 值 时 整个 分 类 判别 函数 
的 值 为 0。 作 为 补救 措施 可 以 使 用 拉 普 拉 斯 平滑 ,具体 做 法 是 给 分 子 和 分 母 同时 加 上 一 个 
正 数 。 如 果 特 征 分 量 的 取 值 有 A 种 情况 ,将 分 母 加 上 上 ,每 一 类 的 分 子 加 上 1, 这样 可 以 保证 
所 有 类 的 条 件 概 率 加 起 来 还 是 1: 

Necu ti 
N,-. +Ë 

对 于 每 一 个 类 ,计算 出 待 预测 样本 的 各 个 特征 分 量 的 类 条 件 概 率 ,然后 与 类 概率 一 起 连 

乘 , 得 到 上 面 的 预测 值 , 该 预测 值 最 大 的 类 为 最 后 的 分 类 结果 。 





р(х; о| у= с) 
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422 连续 型 特征 


如 果 特 征 向 量 的 分 量 是 连续 型 随机 变量 ,可 以 假设 它们 服从 一 维 正 态 分 布 。 根 据 训 练 
样本 集 可 以 计算 出 正 态 分 布 的 均值 与 方差 ,这 可 以 通过 最 大 似 然 估计 得 到 。 这 样 得 到 概率 
密度 函数 为 

fe eal psd A9 n ) 

连续 型 随机 变量 不 能 计算 它 在 某 一 点 的 概率 ,因为 它 在 任何 一 点 处 的 概率 为 0。 直接 

用 概率 密度 函数 的 值 作为 概率 值 , 得 到 的 分 类 器 为 








arg max,pCy = o Tf fa: [у= с) 
il 


对 于 二 分 类 问题 可 以 做 进一步 简化 。 假 设 正 负 样本 的 类 别 标签 分 别 为 十 1 和 一 1, 特 征 
向 量 属于 正 样本 的 概率 为 
iT 1 (z; — ш)? 
ply =+ 1 | 2) = p(y +071 == [ Ta! ) 
其 中 ,2 为 归 一 化 因子 uus 为 第 i 个 特征 的 均值 ,c; 为 第 i 个 特征 的 标准 差 。 对 上 式 两 边 取 
对 数 得 
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py =+ _ v [ 1 59 
In p(y =+ 1 | z) = In = 2n Vina, 


2oi 
整理 简化 得 








In p(y =+ 1 | z) = tas — ш)? +c 
其 中 ,ec 和 cei 都 是 常数 ,ci 仅 由 ci 决定。 同样 可 以 得 到 样本 属于 负 样 本 的 概率 。 在 分 类 时 只 
需要 比较 这 两 个 概率 对 数值 的 大 小 ,如 果 
In p(y =+1 | z) > ln ply =—1 | z) 
变形 后 得 到 
ln p(y =+1 | xz) 一 ln р(у=—1|хх)>0 
时 将 样本 判定 为 正 样本 ,和 否则 判定 为 负 样本 。 


4.3 正 态 贝 叶 斯 分 类 器 
下 面 考虑 更 一 般 的 情况 ,假设 样本 的 特征 向 量 服从 多 维 正 态 分 布 , 此 时 的 贝 叶 斯 分 类 器 
称 为 正 态 贝 叶 斯 (Normal Bayes) 分 类 器 。 


4.3.1 训练 算法 


假设 特征 向 量 服从 n 维 正 态 分 布 ,其 中 为 均值 向 量 , 区 为 协 方差 矩 阵 。 类 条 件 概率 密 
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其 中 ,| 刀 是 协 方差 矩阵 的 行列 式 , 互 :是 协 方差 矩阵 的 道 矩 阵 。 图 4-1 是 二 维 正 态 分 布 的 
概论 密度 函数 。 





图 4.1 二 维 正 态 分 布 的 概率 密度 函数 


在 接近 均值 处 ,概率 密度 函数 的 值 大 ;在 远离 均值 处 ,函数 的 值 小 。 正 态 贝 叶 斯 分 类 器 
训练 时 根据 训练 样本 估计 每 一 类 条 件 概率 密度 函数 的 均值 与 协 方差 矩阵 。 另 外 还 需要 计算 
协 方差 矩阵 的 行列 式 和 逆 矩 阵 。 由 于 协 方差 矩阵 是 实 对 称 和 矩阵, 因此 一 定 可 以 对 角 化 ,可 以 
借助 奇异 值 分 解 来 计算 行列 式 和 道 矩 阵 。 对 协 方差 矩阵 进行 奇异 值 分 解 ,有 

= = О0О" 
其 中 ,W 为 对 角 阵 ,其 对 角 元 素 为 矩阵 的 特征 值 ;U 为 正 交 和 矩阵 , 它 的 列 为 协 方差 矩阵 的 特 
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被 算出 ,由 于 正 交 和 矩阵 的 行列 式 为 1, 因此 , 它 等 于 矩阵 多 的 行列 式 , 而 W 的 行列 式 又 等 于 
所 有 对 角 元 素 的 乘积 。 

还 有 一 个 没有 解决 的 问题 是 如 何 根据 训练 样本 估计 出 正 态 分 布 的 均值 向 量 和 协 方差 矩 
阵 。 通 过 最 大 似 然 估 计 和 和 矩 估计 都 可 以 得 到 正 态 分 布 的 这 两 个 参数 。 样 本 的 均值 向 量 就 是 
均值 向 量 的 估计 值 , 样 本 的 协 方差 矩阵 就 是 协 方差 矩阵 的 估计 值 。 


432 预测 算法 


在 预测 时 需要 寻找 具有 最 大 条 件 概率 的 那个 类 , 即 最 大 化 后 验 概率 (Maximum A 
Posteriori, MAP) ,根据 贝 叶 斯 公式 有 
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arg тах, (р(с | x)) = arg max (PORE LO 


假设 每 个 类 的 概率 p(c) 相 等 ,p(x) 对 于 所 有 类 都 是 相等 的 ,因此 ,等 价 于 求解 该 问题 : 
arg max (р(х | с)) 


也 就 是 计算 每 个 类 的 p(x1c) 值 ,然后 取 最 大 的 那个 。 对 p(x1c) 取 对 数 , 有 
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进一步 简化 为 
InCp&x | 0) = 3 029) уп (| Z |> LG 1 E^ (x — p») 








Hep, 51а (2x) 是 常数 ,对 所 有 类 都 是 相同 的 。 求 上 式 的 最 大 指 等 价 于 求 下 式 的 最 小 值 : 


In| E D + (к 0ТЕ (x р)) 
其 中 ,ln (| 允 |) 可 以 根据 每 一 类 的 训练 样本 预先 计算 好 ,与 x 无关, 不 用 重复 计算 。 预 测 时 
只 需要 根据 样本 x 计算 (x 一 J) 允 (x 一 jp)" 的 值 , 而 加 :也 是 在 训练 时 计算 好 的 ,不 用 重复 
计算 。 
下 面 考 虑 更 特殊 的 情况 ,问题 可 以 进一步 简化 。 如 果 协 方差 矩阵 为 对 角 和 矩阵 o^ I. Efi 
的 值 可 以 写成 
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这 和 朴素 贝 叶 斯 分 类 器 的 情况 是 一 样 的 。 如 果 协 方差 矩阵 是 对 角 和 矩阵 , 则 互 :同样 是 


对 角 和 矩阵 ,上 面 的 公式 同样 可 以 简化 .这 里 不 再 详细 讨论 。 
4.4 实验 程序 


下 面 通 过 实验 程序 介绍 贝 叶 斯 分 类 器 的 使 用 ,程序 是 基于 OpenCV 的 贝 叶 斯 分 类 器 。 
在 这 里 特征 向 量 是 二 维 的 ,是 二 维 平 面 内 的 点 ,可 以 将 平面 内 所 有 点 的 分 类 结果 用 二 维 图 像 
直观 地 显示 出 来 。 

这 个 例子 里 的 样本 有 3 类 ,编号 为 1.2、3。 每 一 类 训练 样本 有 10 个 ,它们 的 特征 值 用 
正 态 分 布 的 随机 数 生成 。 三 类 样本 有 不 同 的 均值 .但 两 个 特征 分 量 的 标准 差 都 为 30。 

训练 得 到 分 类 器 模型 之 后 ,用 整个 图 像 上 所 有 的 点 作为 测试 样本 的 特征 向 量 。 将 这 些 
测试 样本 送 到 分 类 器 中 预测 ,根据 分 类 结果 将 像素 显示 成 不 同 的 颜色 。 另 外 还 将 训练 样本 
用 不 同 亮度 值 的 圆 显 示 出 来 。 如 不 进行 特殊 说 明 ,后面 的 演示 程序 都 使 用 这 个 思路 。 

程序 源 代码 如 下 : 


int main (int argc, char * * argv) 

{ 
const int kWidth =512; // 分 类 结果 图 像 的 宽度 
const int kHeight =512; // 分 类 结果 图 像 的 高 度 
Vec3b геа (0, 0, 255), green (0, 255, 0), blue(255, 0, 0); // 显示 分 类 结果 的 3 种 颜色 
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// 用 于 显示 分 类 结果 的 图 像 

Mat image -Mat::zeros(kHeight, kWidth, CV_8UC3); 
// 为 训练 样本 标签 赋值 

int labels[30]; 


for (int i=0 ; i<10; i++) 


labels[i] =1; // 前 面 10 个 样本 为 第 1 类 
for (int i =10; i <20; i++) 

labels[i] =2; // 中 间 10 个 样本 为 第 2 类 
for (int i =20; i <30; i++) 

labels[i] =3; // 最 后 10 个 样本 为 第 3 类 


Mat trainResponse (30, 1, CV_32SC1, labels); 
// 生成 训练 样本 特征 向 量 数组 
float trainDataArray[30][2]; 
RNG rng; // 用 于 生成 随机 数 
for (int i =0; i <10; i++) 
{ 
// 生成 第 1 类 样本 的 特征 向 量 
//x 和 Y 都 服从 正 态 分 布 (250,30?), 用 随机 数 生成 样本 的 特征 值 
// gaussian 函数 生成 指定 标准 差 .均值 为 0 的 正 态 分 布 数 ,这 里 标准 差 为 30 
trainDataArray[i] [0] =250 +static_cast<float> (rng.gaussian(30)); 
trainDataArray[i][1] =250 +static_cast<float> (rng.gaussian(30)); 


for (int i =10; i <20; i++) 


// 生成 第 2 类 样本 的 特征 向 量 
trainDataArray[i] [0] =150 +static_cast<float> (rng.gaussian(30)); 
trainDataArray[i][1] =150 +static_cast<float> (rng.gaussian(30)); 


for (int i =20; i <30; i++) 


// 生成 第 3 类 样本 的 特征 向 量 
trainpataArray[i][0] =320 +static cast<float> (rng.gaussian (30)); 
trainDataArray[i][1] =150 +static cast<float> (rng.gaussian (30)); 
} 
Mat trainData(30, 2, CV_32FC1, trainDataArray); 
CvNormalBayesClassifier bayesClassifier; 
// 训练 贝 叶 斯 分 类 器 
bayesClassifier.train(trainData, trainResponse); 
// 对 图 像 内 所 有 点 (i, j) 一 一 即 特 征 向 量 (x,y) 一 一 进行 预测 ,在 这 里 是 y,j 是 x 
for (int i =0; i <image.rows; i++) 
{ 
for (int j =0; j <image.cols; j++) 
f 
// 生成 测试 样本 特征 向 量 
Mat sampleMat = (Mat «float» (1, 2) <<], i); 
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// 用 贝 叶 斯 分 类 器 进行 预测 
float response =bayesClassifier.predict (sampleMat) ; 
// 根据 预测 结果 显示 不 同 的 颜色 
if (response ==1) 
image.at<Vec3b> (i, j) =red; 
else if (response ==2) 
image.at<Vec3b> (i, j) =green; 
else 


image.at<Vec3b> (i, j) =blue; 


) 
// 显示 训练 样本 
for (int i =0; i<trainData.rows; i++) 
{ 
const float * v -trainData.ptr«float» (i); 
Point pt =Point ((int)v[0], (int)v[1]); 
if (labels[i] ==1) 
circle (image, pt, 5, Scalar::all(0), -1, 8); 
else if (labels[i] ==2) 
circle (image, pt, 5, Scalar::all(128), -1, 8); 
else 
circle (image, pt, 5, Scalar::all(255), -1, 8); 
) 
// 显示 分 类 结果 图 像 ,水 平方 向 为 x, 垂 直方 向 为 Y 
imshow ("Bayesian classifier demo", image); 
waitKey(0); 
return 0; 


) 
程序 运行 结果 如 图 4.2 所 示 。 





4.2 正 态 贝 叶 斯 分 类 器 的 分 类 结果 
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在 这 个 例子 中 ,分 类 边界 是 曲线 ,这 说 明正 态 贝 叶 斯 分 类 器 具有 非 线性 分 类 的 能 力 。 正 
态 贝 叶 斯 分 类 器 没有 需要 人 工 设置 的 参数 ,可 以 直接 支持 多 类 分 类 问题 。 


4.5 源 代 码 分 析 

下 面 分 析 OpenCV 中 正 态 贝 叶 斯 分 类 器 的 实现 , 它 假 设 特 征 向 量 服从 多 维 正 态 分 布 ， 
支持 多 类 分 类 问题 。 
4.5.1 主要 数据 结构 


CvNormalBayesClassifier 类 实现 了 正 态 贝 叶 斯 分 类 器 。 定 义 如 下 : 


class CV_EXPORTS CvNormalBayesClassifier : public CvStatModel 


t 


public: 


CvNormalBayesClassifier(); 

virtual ~CvNormalBayesClassifier(); 

// 在 构造 函数 中 直接 训练 模型 

CvNormalBayesClassifier( const CvMat* train data, const CvMat* responses, 
const CvMat * var idx-0, const CvMat* sample idx-0); 

// 训练 函数 ,后 面 会 详细 解释 

virtual bool train( const CvMat * train data, const CvMat* responses, 
const CvMat* var idx =0, const CvMat* — sample idx-0, bool update- false ); 

// 预测 函数 ,后 面 会 详细 解释 

virtual float predict( const CvMat * samples, CvMat * results=0 ) const; 

virtual void clear(); 

virtual void write ( CvFileStorage * storage, const char * name ) const; 


virtual void read( CvFileStorage* storage, CvFileNode* node ); 


protected: 
int var_count, var_all; // var_count 是 特征 向 量 的 维 数 
CvMat* var idx; // 特征 编号 
CvMat% cls labels; // 训练 样本 的 类 别 标签 值 数组 
CvMat * * count; // 用 于 计算 各 个 类 的 均值 和 协 方差 矩阵 的 辅助 变量 
CvMat* * sum; // 辅助 变量 ,用 于 计算 协 方差 矩阵 
CvMat * * productsum; // 辅助 变量 ,用 于 计算 协 方差 矩阵 
CvMat* * avg; // 每 一 类 的 均值 向 量 
CvMat* * inv eigen values; ЭЕ 2558 PERF (HE, 
CvMat* * cov rotate mats; ЭЕ DOT He Ie HI TE EAE DE PER E U 
CvMat* с; // 存放 协 方差 矩阵 的 行列 式 的 In f, BY In 121 


HN 


成 员 变 量 inv eigen values 和 cov rotate mats 联合 起 来 表示 每 个 类 的 协 方差 矩阵 ,在 
预测 时 不 用 每 次 都 计算 协 方差 矩阵 的 道 和 矩阵。 另外 .ec 中 存放 了 协 方差 矩阵 的 行列 式 的 对 
数值 ,这 个 也 不 用 在 每 次 分 类 时 计算 。 
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4.5.2 训练 函数 


训练 算法 的 核心 是 计算 样本 的 均值 向 量 . 协 方差 矩阵 ,以 及 对 协 方差 矩阵 进行 奇异 值 分 
解 ,具体 流程 如 下 。 

CD 计算 每 一 类 训练 样本 的 均值 wx, 以 及 协 方差 矩阵 E. 

(2) 对 协 方差 矩阵 进行 奇异 值 分 解 ,然后 计算 所 有 特征 值 的 道 ,同时 还 计算 出 In C/E) 
存储 在 中 ; 正 交 化 旋转 矩阵 存储 在 cov rotate mats 中 。 

下 面 来 看 train 函数 的 实现 。 代 码 如 下 : 


bool CvNormalBayesClassifier::train(const CvMat* train data, const CvMat * 
responses, const CvMat* var idx, const CvMat* sample idx, bool update) 
{ 
const float min_variation =FLT_EPSILON; // 最 小 方差 值 , 用 于 数值 处 理 
bool result =false; 
CvMat * responses=0; 
const float * * train data =0; 
CvMat* _ cls labels =0; 
CvMat* _ var idx =0; 
CvMat* cov =0; 
CV FUNCNAME( "CvNormalBayesClassifier::train" ); 
. BEGIN ; 
int cls, nsamples -0, var count -0, var all =0, nclasses =0; 
int в, сї, c2; 
const int* responses data; 
CV CALL( cvPrepareTrainData( 0, 
.train data, CV ROW SAMPLE, responses, CV VAR CATEGORICAL, 
_var_idx, sample idx, false, &train data, 
&nsamples, & var count, & var all, &responses, 
& cls labels, & var ійх)); 
if( !update ) 


const size t mat size =sizeof (CvMat * ); 
size t data size; 

clear(); 

var іх = var idx; 

cls labels - cls labels; 

. var idx- cls labels =0; 

var count = var count; 

var all- var all; 

nclasses =с15 labels-»cols; 

data size =nclasses * 6* mat size; 

CV CALL( count = (CvMat * * )cvAlloc( data size )); 
memset ( count, 0, data size); 


sum =count +nclasses; 


66 } ЖЫЗ SHA 


productsum =sum +пс1аззез; 


avg =productsum +nclasses; 


inv_eigen_values=avg +nclasses; 


cov rotate mats =inv_eigen_values +nclasses; 


CV CALL( с =cvCreateMat ( 1, nclasses, CV 64ЕС1 )); 


for ( cls =0; cls «nclasses; cls**) 


t 
CV CALL(count[cls] =cvCreateMat ( 1, var count, CV 32SCl)); 
CV CALL(sum[cls] =cvCreateMat ( 1, var count, CV 64FCl )); 
CV_CALL (productsum[cls]=cvCreateMat ( var count, var count, 
CV 64ЕС1 )); 
CV CALL(avg[cls] -cvCreateMat( 1, var count, CV 64FCl )); 
CV CALL(inv eigen values[cls] -cvCreateMat( 1, var count, 
CV 64ЕС1 )); 
CV CALL(cov rotate mats[cls] =cvCreateMat ( var count, var count, 
CV 64ЕС1 )); 
CV CALL (cvZero ( count [cls] )); 
CV CALL (cvZero ( sum[cls] )); 
CV CALL (cvZero ( productsum[cls] )); 
CV CALL (cvZero ( avg[cls] )); 
CV CALL(cvZero( inv eigen values[cls] )); 
CV CALL(cvZero( cov rotate mats[cls] )); 
} 
} 
else 
{ 
if( var count !=var count || var all !=var all || !((! var idx && !var idx) || 
( var idx && var idx && cvNorm( var idx,var idx,CV C) « 
DBL_EPSILON)) ) 
CV ERROR( CV StsBadArg, 
"The new training data is inconsistent with the original training data" ); 
if(cls labels-»cols !- cls labels-»cols || 


cvNorm(cls labels,  cls labels, CV C) »DBL EPSILON ) 
CV ERROR( CV StsNotImplemented, 
"In the current implementation the new training data must have absolutely " 


"the same set of class labels as used in the original training data" ); 


nclasses -cls labels-»cols; 


) 


responses data =responses->data.i; 


CV CALL( соу -cvCreateMat( var count, var count, CV 64FCl)); 
// 对 每 个 样本 进行 处 理 


for( s =0; s <nsamples; s++) 


{ 


cls =геѕропѕез data[s]; // 第 s 个 样本 的 类 别 标签 
int* count data =count[cls]->data.i; // 第 cls 类 样本 的 数量 


} 
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double* sum data -sum[cls]-»data.db; // 第 cis 类 样本 的 累加 和 
double* prod data =productsum[cls]->data.db; 
const float * train vec =train data[s]; // 第 s 个 样本 的 特征 向 量 


for( cl =0; cl < var count; cl++, prod data += var count ) 


{ 


double vall -train vec[cl]; // 第 s 个 训练 样本 特征 向 量 的 第 cl 维 分 量 
sum data[c1] +=va11; // 第 с1з 个 类 的 第 cl 个 分 量 的 累加 和 
count_data[cl]++; // 第 cls 类 训练 样本 的 个 数 累加 


for(c2-cl; c2« var count; c2++) // 计算 两 个 特征 分 量 的 积 


prod data[c2] *-train vec[c2] * vall; 


// 为 每 个 类 分 别 计算 均值 向 量 и RU E EE 


for( cls =0; cls <nclasses; cls++) 


{ 


double det =1; 
int i, j; 
CvMat * w =inv_eigen_values[cls]; 
int * count data =count[cls]->data.i; 
double * avg data -avg[cls]-»data.db; 
double* suml -sum[cls]-»data.db; 
cvCompleteSymm( productsum[cls], 0); 
// 计算 均值 向 量 
for( j =0; j <_var_count; j++) 
{ 
int n =count_data[j]; 
avg data[j] =n ?sum1[j] / n : 0.; 
} 
count data -count[cls]-»data.i; 
avg data =avg[cls]->data.db; 
suml -sum[cls]-»data.db; 
// 计算 协 方差 矩阵 ,直接 按照 公式 来 
for( i =0; і <_var_count; i++) 
{ 
double * avg2 data -avg[cls]-»data.db; 
double* sum2 -sum[cls]-»data.db; 
double * prod data =productsum[cls]->data.db +1 * var count; 
double* cov data =cov->data.db +1 * var count; 
double slval -suml[i]; 
double avgl =avg data[i]; 
int count -count data[i]; 
for( j =0; j <=i; j++) 
{ 
double avg2 =avg2_data[j]; 
double cov val =prod data [j] -avgl * sum2[j] -avg2 * slval + 
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avgl * avg2 * count; 
соу_уа1 = (count >1) ?cov val / (count -1) : cov_val; 


cov data[j] =cov_val; 


} 
// 前 面具 计算 了 协 方差 矩阵 的 下 三 角 , 在 这 里 把 另外 一 半 补 上 
CV_CALL( cvCompleteSymm( cov, 1)); 
// 奇异 值 分 解 
CV CALL( cvSVD( соу, w, cov rotate mats[cls], 0, CV SVD U T )); 
// 对 w 和 矩阵 进行 截断 处 理 ,避免 方差 为 0 导致 的 除 0 操作 
CV CALL( суМах5( w, min variation, w )); 
// 计算 协 方差 矩阵 的 行列 式 , 因 为 是 对 角 和 矩阵 ,行列 式 是 对 角 元 素 乘积 
// 结果 存放 在 det 中 
for(j =0; j <_var_count; j++) 
det * -w-»data.db[j]; 
CV CALL( cvDiv( NULL, w, w )); // 求 w 的 逆 矩 阵 
c->data.db[cls] =log( det ); // 计算 1n151 
} 
result =true; 
_END ; 
if( !result || cvGetErrStatus() <0 ) 
clear(); 
cvReleaseMat ( &cov ) ; 
cvReleaseMat( & cls labels); 
cvReleaseMat( & var idx); 
cvFree( &train data ); 


return result; 


4.5.8 预测 函数 


预测 时 ,对 于 输入 样本 向 量 x 为 分 别 对 每 一 个 类 计算 下 列 值 , 该 值 最 小 的 类 为 样本 的 分 

类 结果 : 
InC| Z|) + (G р) (х — p)" 

C++ 语言 的 向 量 按照 行 存储 ,实现 时 和 前 面 的 公式 略 有 不 同 。 由 于 对 协 方差 矩阵 做 了 

奇异 值 分 解 ,因此 有 
(x— р) (x — р)" = (x—pg)UWUT(x— р)" = (x — pW (Сх — р) 

实现 时 先 计算 向 量 减法 х— a. PA Je рК j ERIK xU, PRR predict 实 

现 预 测 功能 ,代码 如 下 : 


float CvNormalBayesClassifier::predict(const CvMat * samples, CvMat* results) const 
t 














float value =0; 
void* buffer =0; 


int allocated buffer =0; 
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CV FUNCNAME ( "CvNormalBayesClassifier::predict" ); 


. BEGIN ; 

int i, j; k, cls --1, var count, nclasses; 
double opt —FLT MAX; 

CvMat diff; 


int rtype =0, rstep =0, size; 
const int* vidx =0; 
nclasses -cls labels-»cols; 
_маг count -avg[0]-» cols; 
if( !cV IS MAT(samples) || CV MAT TYPE(samples-»type) !-CV 32FCl || 
samples-»cols !-var all) 
CV ERROR( CV StsBadArg, 
"The input samples must be 32f matrix with the number of columns -var all"); 
if( samples-» rows >1 && !results ) 
CV ERROR( CV StsNullPtr, 
"When the number of input samples is >1, the output vector of results must be 
passed" ); 
if( results ) 
t 
if( !CV IS MAT(results) || (CV МАТ TYPE(results-»type) !-CV 32FCl && 
CV MAT TYPE(results->type) !-CV 32SCl) || 
(results-» cols !=1 && results-» rows !=1) || 
results-»cols +results->rows -1 !=samples->rows ) 
CV ERROR( CV StsBadArg, "The output array must be integer or floating-point 
vector " 
"with the number of elements =number of rows in the input matrix" ); 
rtype -CV MAT TYPE (results-> type); 
rstep -CV IS MAT CONT (results-»type) ?1: 
results-»step/CV ELEM SIZE (rtype) ; 
} 
if ( var_idx ) 
vidx =var_idx->data.i; 
size =sizeof (double) * (nclasses +var_count); 
if (size <=CV_MAX LOCAL SIZE) 
buffer =cvStackAlloc( size ); 
else 
{ 
CV_CALL( buffer =cvAlloc( size )); 
allocated_buffer =1; 


} 
diff =cvMat ( 1, var count, CV 64ЕС1, buffer ); 
// 依次 处 理 每 个 样本 


for( k =0; k <samples->rows; К++) 
{ 


int ival; 


70) їз БШ 


for( 1 =0; 1 <nclasses; 1++) HATETE і 

{ 
double cur -c-»data.db[i]; // 获取 第 类 的 1n1XI 
CvMat * u=cov rotate mats[i]; // 获取 第 i 类 的 正 交 化 旋转 矩阵 U 
CvMat * м =іпу eigen values[i]; // 获取 第 i ЖМ f ЕЕ 


const double * avg data =avg[i]->data.db; // 获取 均值 向 量 
const float * x = (const float * ) (samples->data.ptr +samples- > step * k); 
// 计算 p-x 
for( j =0; j <_var_count; j++) 
diff.data.db[j] =avg_data[j] -x[vidx ?vidx[j] : j]; 
// 计算 (и-х) 0, 存储 在 diff 中 
CV CALL(cvGEMM( &diff, u, 1, 0, 0, &diff, CV GEMM B T )); 
// 寻找 极 小 值 
for( j =0; j <_var_count; j++) 
{ 
double d =diff.data.db[j]; 


cur +=d* d* w-»data.db[j]; // 计算 ((g-x)U)W((n-x)O)* 
} 
if( cur «opt ) // 寻找 最 小 值 
{ 
cls =i; 
opt =cur; 
) 
) 
ival =cls_labels->data.i[cls]; // 最 终 的 分 类 结果 
1Ё( results ) 
{ 
if( rtype ==CV_32SC1 ) 
results->data.i[k* rstep] =ival; 
else 
results-»data.fl[k* rstep] = (float)ival; 
} 
if(k==0) 
value = (float)ival; 
) 
_END ; 


if(allocated buffer ) 
cvFree ( &buffer ); 


return value; 


4.6 应 用 


贝 叶 斯 分 类 器 是 生成 模型 的 典型 代表 ,具有 实现 简单 和 计算 量 小 的 优点 。 在 某 些 问 题 
上 有 成 功 的 应 用 ,包括 垃圾 邮件 分 类 问题 加 .自然 语言 处 理 中 的 文本 分 类 问题 中 .智能 视频 
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监控 中 的 背景 建 模 算法 外、 人 脸 识 别 中 的 联合 贝 叶 斯 模型 中 。 

贝 叶 斯 框架 在 机 器 学 习 中 的 应 用 不 只 有 贝 叶 斯 分 类 器 ,还 有 贝 叶 斯 网 络 中 9。 贝 叶 斯 
网 络 可 以 实现 各 个 变量 之 间 的 因果 推理 ,是 一 种 概率 图 模型 ,限于 篇 幅 ,在 本 书 中 不 做 详细 
介绍 , 感 兴趣 的 读者 可 以 阅读 相关 参考 文献 。 其 他 一 些 应 用 (如 语音 识别 .机 器 翻译 等 问题 ) 
中 也 使 用 了 贝 叶 斯 公式 和 最 大 化 后 验 概率 的 思想 ,在 第 16 章 中 将 详细 介绍 。 
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处 ,根据 判断 结果 进入 一 个 分 支 ,反复 执行 这 种 操作 直到 到 达 叶 子 节点 ,得 到 预测 结果 。 这 
些 规 则 是 通过 训练 得 到 的 ,而 不 是 人 工 制定 的 。 


5.1 树 形 决策 过 程 


首先 看 一 个 简单 的 例子 。 银 行 要 确定 是 否 给 客户 发 放贷 款 , 为 此 需要 考察 客户 的 收入 
与 房产 情况 。 在 做 决策 之 前 ,会 先 获取 客户 的 这 两 个 数据 。 如 果 把 这 个 决策 看 作 分 类 问题 ， 
两 个 指标 就 是 特征 向 量 的 两 个 分 量 , 分 类 的 类 别 标签 是 可 以 贷款 和 不 能 贷款 。 银 行 按照 下 
面 的 过 程 进行 决策 。 

(1) 首先 判断 客户 的 年 收入 指标 。 如 果 大 于 20 万 元 ,可 以 贷款 ;否则 继续 判断 。 

D 然后 判断 客户 是 否 有 房产 。 如 果 有 房产 ,可 以 贷款 ;否则 不 能 贷款 。 

用 图 形 表 示 这 个 过 程 就 是 一 棵 决策 树 。 决 策 过 程 从 树 的 根 节点 开始 ,在 内 部 节点 处 需 
要 做 判断 ,直到 到 达 一 个 叶子 节点 处 ,得 到 决策 结果 。 决 策 树 由 一 系列 分 层 嵌 套 的 判定 规则 
组 成 ,是 一 个 递归 的 结构 。 这 个 例子 的 决策 树 如 图 5. 1 所 示 。 
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Ё 
m 














是 否 


5.1 决策 树 的 一 个 例子 


收入 为 数值 型 特征 ,可 以 比较 大 小 ,这 种 特征 为 整数 或 小 数 。 房 产 情 况 为 类 别 型 特征 ， 
取 值 为 有 房产 或 没有 房产 两 种 情况 ,这 种 特征 不 能 比较 大 小 。 图 5. 1 中 决策 树 所 有 的 内 部 
节点 为 矩形 ,叶子 节点 即 决策 结果 为 椭圆 形 。 

为 便于 用 程序 实现 ,一般 将 决策 树 设计 成 二 又 树 。 与 树 的 叶子 节点 、 非 叶子 节点 相对 
应 ,决策 树 的 节点 分 为 两 种 类 型 。 

(1) 决策 节点 。 在 这 些 节点 处 需要 进行 判断 以 决定 进入 哪个 分 支 ,如 用 一 个 特征 和 设 
定 的 阔 值 进行 比较 。 决 策 节点 一 定 有 两 个 子 节点 , 它 是 非 叶 子 节点 。 
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(2) 叶子 节点 。 表 示 最 终 的 决策 结果 ,它们 没有 子 节点 。 在 上 面 的 例子 中 ,叶子 节点 的 
值 有 两 种 , 即 可 以 贷款 和 不 能 贷款 。 对 于 分 类 问题 ,叶子 节点 中 存储 的 是 类 别 标签 。 

决策 树 是 一 个 分 层 结构 ,可 以 为 每 个 节点 赋予 一 个 层次 数 。 根 节点 的 层次 数 为 0, 子 节 
点 的 层次 数 为 父 节 点 层次 数 加 1。 树 的 深度 定义 为 所 有 节点 的 最 大 层次 数 。 图 5. 1 决策 树 
的 深度 为 2, 要 得 到 一 个 决策 结果 最 多 经 过 两 次 判定 。 

典型 的 决策 树 有 ID3™ C4. 57 .CART(Classification And Regression Tree, 分 类 与 回 
归 树 ) 中 等 ,它们 的 区 别 在 于 树 的 结构 与 构造 算法 。 分 类 与 回归 树 既 支持 分 类 问题 ,也 可 用 
于 回归 问题 。 决 策 树 是 一 种 判别 模型 ,天 然 支持 多 类 分 类 问题 。 限 于 篇 幅 ,本章 只 介绍 分 类 
与 回归 树 。 

分 类 树 的 映射 函数 是 多 维 空间 的 分 段 线 性 划分 , 即 用 平行 于 各 坐标 轴 的 超 平面 对 空间 
进行 切 分 ;回归 树 的 映射 函数 是 分 段 常数 函数 。 决 策 树 是 分 段 线 性 函数 而 不 是 线性 函数 , 它 
具有 非 线性 建 模 的 能 力 。 只 要 划分 得 足够 细 , 分 段 常 数 函 数 可 以 逼近 闭 区 间 上 任意 函数 到 
任意 指定 精度 ,因此 ,决策 树 在 理论 上 可 以 对 任意 复杂 度 的 数据 进行 拟 合 。 对 于 分 类 问题 ， 
如 果 决 策 树 深度 够 大 , 它 可 以 将 训练 样本 集 的 所 有 样本 正确 分 类 。 但 如 果 特 征 向 量 维 数 过 
高 ,可 能 会 面临 维 数 灾难 导致 准确 率 下 降 , 维 数 灾难 的 概念 在 第 14 章 介绍 。 

图 5. 2 是 决策 树 对 空间 划分 的 一 个 例子 。 这 里 有 红色 和 蓝 色 两 类 训练 样本 ,用 下 面 两 
条 平行 于 坐标 轴 的 直线 可 以 将 这 两 类 样本 分 开 。 

这 个 划分 方案 对 应 的 决策 树 如 图 5. 3 所 示 。 
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图 5.2 决策 树 对 空间 的 划分 图 5.3 决策 树 


5.2 分类 与 回归 树 


下 面 介绍 分 类 与 回归 树 的 原理 ,它们 是 二 又 决策 树 。 预 测 时 从 根 节点 开始 ,每 次 只 对 一 个 
特征 进行 判定 ,然后 进入 左 子 节点 或 者 右 子 节点 ,直至 到 达 一 个 叶子 节点 处 ,得 到 类 别 值 或 回 
归 函 数值 。 预 测算 法 的 时 间 复 杂 度 与 树 的 深度 有 关 , 判 定 的 执行 次 数 不 超 过 决策 树 的 深度 。 
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5.3 训练 算法 


现在 要 解决 的 关键 问题 是 如 何 用 训练 样本 建立 决策 树 。 无 论 是 分 类 问题 还 是 回归 问 
题 ,决策 树 都 要 尽 可 能 地 对 训练 样本 进行 正确 的 预测 。 直 观 的 想法 是 从 根 节 点 开始 构造 , 递 
归 地 用 训练 样本 集 建立 起 决策 树 , 这 棵 树 能 够 将 训练 集 正确 分 类 ,或 者 对 训练 集 的 回归 误差 
最 小 化 。 为 此 要 解决 以 下 问题 。 

特征 向 量 有 多 个 分 量 , 每 个 决策 节点 上 应 该 选择 哪个 分 量 做 判定 ?这 个 判定 会 将 训练 
样本 集 一 分 为 二 ,然后 用 这 两 个 子 集 构造 左右 子 树 。 

选 定 一 个 特征 后 ,判定 的 规则 是 什么 ?也 就 是 说 ,满足 什么 条 件 时 进入 左 子 树 分 支 。 对 
数值 型 变量 要 寻找 一 个 分 裂 阔 值 进行 判断 ,小 于 该 阔 值 进入 左 子 树 ,否则 进入 右 子 树 。 对 于 
类 别 型 变量 则 需要 为 它 确定 一 个 子 集 划分 ,将 特征 的 取 值 集合 划分 成 两 个 不 相交 的 子 集 ,如 
果 特 征 的 值 属于 第 一 个 子 集 则 进入 左 子 树 ,否则 进入 右 子 树 。 

何 时 停止 分 裂 ,把 节点 设置 为 叶子 节点 ? 对 于 分 类 问题 , 当 节点 的 样本 都 属于 同一 类 型 
时 停止 ,但 这 样 可 能 会 导致 树 的 节点 过 多 ,深度 过 大 ,产生 过 拟 合 问题 。 另 一 种 方法 是 当 节 
点 中 的 样本 数 小 于 一 个 阔 值 时 停止 分 裂 。 

如 何 为 每 个 叶 节 点 赋予 类 别 标签 或 者 回归 值 ? 也 就 是 说 ,到 达 叶 子 节点 时 样本 被 分 为 
哪 一 类 或 者 赋予 一 个 什么 实数 值 。 

下 面 给 出 这 几 个 问题 的 答案 。 特 征 有 数值 型 变量 和 类 别 型 变量 两 种 情况 ,决策 树 有 分 
类 树 和 回归 树 两 种 类 型 ,组 合 起 来 一 共有 4 种 情况 。 限 于 篇 幅 , 只 对 数值 型 变量 进行 介绍 。 


534 递归 分 裂 过 程 


训练 算法 是 一 个 递归 的 过 程 。 首 先 创建 根 节 点 ,然后 递归 地 建立 左 子 树 和 右 子 树 。 如 
果 练 样本 集 为 Р. Еу ЖИЛЕ ШЕ. 

(1) 用 样本 集 D 建立 根 节点 ,找到 一 个 判定 规则 ,将 样本 集 分 裂 成 D, 和 D, 两 部 分 , 同 
时 为 根 节点 设置 判定 规则 。 

(2) MERE D, 递归 建立 左 子 树 。 

(3) 用 样本 集 D, 递归 建立 右 子 树 。 

(4) 如 果 不 能 再 进行 分 裂 , 则 把 节点 标记 为 叶子 节点 ,同时 为 它 赋值 。 

在 确定 这 个 递归 流程 之 后 , 接 下 来 要 解决 的 核心 问题 是 怎样 对 训练 样本 集 进行 分 裂 。 


532 寻找 最 佳 分 裂 


训练 时 需要 找到 一 个 分 裂 规则 把 训练 样本 集 分 裂 成 两 个 子 集 , 因 此 ,要 确定 分 裂 的 评价 
标准 ,根据 它 寻找 最 佳 分 裂 。 对 于 分 类 问题 ,要 保证 分 裂 之 后 左右 子 树 的 样本 尽 可 能 纯 , 即 
它们 的 样本 尽 可 能 属于 不 相交 的 某 一 类 或 者 几 类 。 为 此 需要 定义 不 纯度 的 指标 : 当 样本 都 
属于 某 一 类 时 不 纯度 为 0; 当 样 本 均匀 地 属于 所 有 类 时 不 纯度 最 大 。 满 足 这 个 条 件 的 脑 
不 纯度 、Gini 不 纯度 ,以 及 误 分 类 不 纯度 等 ,下 面 分 别 进行 介绍 。 

不 纯度 指标 用 样本 集中 每 类 样本 出 现 的 概率 值 构造 。 因 此 ,首先 要 计算 每 个 类 出 现 的 
概率 ,这 通过 训练 样本 集中 每 类 样本 数 除 以 样本 总 数 得 到 
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М; 
pi; = N 
其 中 ,NN; 是 第 i 类 样本 数 ;N 为 总 样本 数 。 根 据 这 个 概率 值 可 以 定义 各 种 不 纯度 指标 ,下 面 
分 别 介绍 。 
样本 集 D B8 Al fs bt Е SUN 
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最 小 ,这 就 是 我 们 想 要 的 最 佳 分 裂 。 

样本 集 的 Gini 不 纯度 定义 为 

GO) —1— У)р? 

当 样 本 属于 某 一 类 时 Gini 不 纯度 的 值 最 小 ,此 时 最 小 值 为 0; 当 样本 均匀 地 分 布 于 每 一 

类 时 Gini 不 纯度 的 值 最 大 。 这 源 自 于 如 下 数学 结论 ,在 下 面 的 约束 条 件 下 : 
Ур = 1 





pi > 
对 于 如 下 目标 函数 : 
Ун 
所 有 变量 相等 时 它 有 极 小 值 , 只 有 一 个 变量 为 1 其 他 变量 为 0 时 该 函数 有 极 大 值 ,这 对 
应 于 Gini 不 纯度 的 极 小 值 , 即 所 有 样本 都 来 自 同一 类 时 Gini 不 纯度 的 值 最 小 ,样本 均匀 地 
属于 每 一 类 时 Gini 不 纯度 的 值 最 大 。 将 类 概率 的 计算 公式 代入 Gini 不 纯度 的 定义 ,可 以 得 
到 简化 的 计算 公式 

















Ум 
GO») = 1— У)р = 1 习 | 总 ] же. 
样本 集 的 误 分 类 不 纯度 定义 为 
E(D) = 1 — тах(р;) 


之 所 以 这 样 定义 是 因为 人 们 会 把 样本 判定 为 频率 最 大 的 那 一 类 ,因此 ,其 他 样本 都 会 被 
错 分 , 故 错误 分 类 率 为 上 面 的 值 。 和 上 面 的 两 个 指标 一 样 , 当 样本 只 属于 某 一 类 时 误 分 类 不 
纯度 有 最 小 值 0, 样 本 均匀 地 属于 每 一 类 时 该 值 最 大 。 
上 面 定义 的 是 样本 集 的 不 纯度 ,我 们 需要 评价 的 是 分 裂 的 好 坏 , 因 此 ,需要 根据 样本 集 
的 不 纯度 构造 出 分 裂 的 不 纯度 。 分 裂 规 则 将 节点 的 训练 样本 集 分 裂 成 左右 两 个 子 集 ,分 裂 
的 目标 是 把 数据 分 成 两 部 分 之 后 这 两 个 子 集 都 尽 可 能 纯 。 因 此 ,我 们 计算 左右 子 集 的 不 纯 
度 之 和 作为 分 裂 的 不 纯度 ,显然 求 和 需要 加 上 权重 ,以 反映 左右 两 边 的 训练 样本 数 。 由 此 得 
到 分 裂 的 不 纯度 计算 公式 为 
Nr 


= № 
G= PGi) + FG (De) 


其 中 ,GCDL) 是 左 子 集 的 不 纯度 ;:GCDR) 是 右 子 集 的 不 纯度 ; N 是 总 样本 数 ; Ni 是 左 子 集 的 
样本 数 ; Мк 是 右 子 集 的 样本 数 。 
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如 果 采 用 Gini 不 纯度 指标 ,将 Gini 不 纯度 的 计算 公式 代入 上 式 可 以 得 到 
DINE: DINE: 


1— NE 
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其 中 ,Ni,; 是 左 子 节点 中 第 i 类 样本 数 ; Ne, 是 右 子 节点 中 第 ; 类 样本 数 。 由 于 N 是 常数 ,要 


让 Gini 不 纯度 最 小 化 等 价 于 让 下 面 的 值 最 大 化 : 
DNL: Ум, 


C= 


这 个 值 可 以 看 作 Gini 纯度 , 它 的 值 越 大 ,样本 越 纯 。 寻 找 最 佳 分 裂 时 需要 计算 用 每 个 阔 
值 对 样本 集 进 行 分 裂 后 的 这 个 值 ,寻找 该 值 最 大 时 对 应 的 分 裂 , 它 就 是 最 佳 分 裂 。 如 果 是 数值 
型 特征 ,对 于 每 个 特征 将 /个 训练 样本 按照 该 特征 的 值 从 小 到 大 排序 ,假设 排序 后 的 值 为 


IT2 TL 


接 下 来 从 as 开始 ,依次 用 每 个 x; 作为 阔 值 ,将 样本 分 成 左右 两 部 分 ,计算 上 面 的 纯度 
值 , 该 值 最 大 的 那个 分 裂 闪 值 就 是 此 特征 的 最 佳 分 裂 冰 值 。 在 计算 出 每 个 特征 的 最 佳 分 裂 
阀 值 和 上 面 的 纯度 值 后 ,比较 所 有 这 些 分 裂 的 纯度 值 大 小 ,该 值 最 大 的 分 裂 为 所 有 特征 的 最 
佳 分 裂 。 这 里 采用 贪心 法 的 策略 ,每 次 都 是 选择 当前 条 件 下 最 好 的 分 裂 作 为 当前 节点 的 分 


裂 。 对 单个 变量 寻找 最 佳 分 裂 闷 值 的 过 程 如 图 5.4 所 示 。 
最 佳 分 裂 国 值 


x x Xj Хн 








左 子 树 右 子 树 
图 5.4 为 数值 型 变量 寻找 最 佳 分 裂 阅 值 


对 于 回归 树 ,衡量 分 裂 的 标准 是 回归 误差 ( 即 样本 方差 ) ,每 次 分 裂 时 选用 使 得 方差 最 小 
化 的 那个 分 裂 。 假 设 节点 的 训练 样本 集 有 / 个 样本 (x;.y;) ,其 中 ,xi 为 特征 向 量 ,y; 为 实数 
的 标签 值 。 节 点 的 回归 值 为 所 有 样本 的 均值 ,回归 误差 为 所 有 样本 的 标签 值 与 回归 值 的 均 


方 和 误差 ,定义 为 


EQ) = Уу — ӯ) 


L i=l 
把 均值 的 定义 带 入 上 式 , 得 到 
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根据 样本 集 的 回归 误差 ,我 们 同样 可 以 构造 出 分 裂 的 回归 误差 。 分 裂 的 目标 是 最 大 程 

度 地 减 小 回归 误差 ,因此 ,把 分 裂 的 误差 指标 定义 为 分 裂 之 前 的 回归 误差 减 去 分 裂 之 后 左右 
子 树 的 回归 误差 : 


== 
< 
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将 误差 的 计算 公式 代入 上 式 , 可 以 得 到 
Е LÈ» HÈ) м (у (2% )°))- 














E= go») tg Qo») 
寻找 最 佳 分 裂 时 要 计算 上 面 的 值 , 让 该 值 最 大 化 的 分 裂 就 是 最 佳 分裂 。 回 归 树 对 类 别 
型 特征 的 处 理 和 分 类 树 类 似 , 只 是 巨 值 的 计算 公式 不 同 ,其 他 的 过 程 相同 。 


5.3.3 ”叶子 节点 值 的 设 定 


如 果 不 能 继续 分 裂 , 则 将 该 节点 设置 为 叶子 节点 。 对 于 分 类 树 ,将 叶子 节点 的 值 设 置 成 
本 节点 的 训练 样本 集中 出 现 概率 最 大 的 那个 类 ;对 于 回归 树 , 则 设置 为 本 节点 训练 样本 标签 
值 的 均值 。 


5.34 属性 缺失 问题 


在 某 些 情况 下 样本 特征 向 量 中 一 些 分 量 没 有 值 ,这 称 为 属性 缺失 。 例 如 ,晚上 我 们 无 法 
观察 到 物体 的 颜色 值 ,颜色 属性 就 缺失 了 。 在 决策 树 的 训练 过 程 中 ,寻找 最 佳 分 裂 时 如 果 某 
一 个 属性 上 有 些 样本 有 属性 缺失 ,可 以 把 这 些 缺失 该 属性 的 样本 剔除 掉 , 然 后 照常 训练 ,这 
是 最 简单 的 做 法 。 

此 外 ,还 可 以 使 用 蔡 代 分 裂 规 则 。 对 于 每 个 决策 树 节点 除了 计算 出 一 个 最 佳 分 裂 规则 
作为 主 分 裂 规则 ,还 会 生成 一 个 或 者 多 个 替代 分 裂 规 则 作为 备 选 。 在 预测 时 如 果 主 分 裂 规 
则 对 应 的 特征 出 现 缺 失 , 则 使 用 蔡 代 分 裂 规则 进行 判定 。 需 要 注意 的 是 ,替代 分 裂 对 于 分 类 
问题 和 回归 问题 是 做 相同 的 处 理 。 
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现在 的 关键 问题 是 怎样 生成 替代 分 裂 规 则 。 主 分 裂 和 替代 分 裂 对 所 有 样本 的 分 裂 结 果 

有 4 种 情况 ,分 别 为 
LL.LR.RL.RR 

LL 表示 被 主 分 裂 . 蔡 代 分 裂 都 分 到 了 左 子 树 的 样本 数 ;LR 表示 被 主 分 裂 分 到 了 左 子 树 ,被 
替代 分 裂 分 到 了 右 子 树 的 样本 数 ;RL 表示 被 主 分 裂 分 到 了 右 子 树 ,被 替代 分 裂 分 到 了 左 子 
树 的 样本 数 ;RR 表示 被 主 分 裂 和 替代 分 裂 都 分 到 了 右 子 树 的 样本 数 。 

LL 十 RR 是 被 替代 分 裂 正 确 分 类 的 样本 数 ,LR 十 RL 是 被 替代 分 裂 错 分 的 样本 数 。 由 
于 可 以 将 左右 子 树 反 过 来 ,因此 ,给 定 一 个 特征 分 量 ,在 寻找 替代 分 裂 的 分 裂 阔 值 时 要 让 LL 
十 RR 或 者 LR 十 RL 最 大 化 ,最 后 取 它 们 的 最 大 值 : 

max (LL+RR,LR+RL) 

该 值 对 应 的 分 裂 闪 值 为 蔡 代 分 裂 的 分 裂 阔 值 。 对 于 除 最 佳 分 裂 所 用 特征 之 外 的 其 他 所 
有 特征 ,都 找 出 该 特征 的 最 佳 分 裂 和 上 面 的 值 。 最 后 取 该 值 最 大 的 那个 特征 和 分 裂 闪 值 作 
为 将 代 分 裂 规 则 。 


5.35 BRAK 


如 果 决 策 树 的 结构 过 于 复杂 ,可 能 会 导致 过 拟 合 问 题 。 此 时 需要 对 树 进行 剪 枝 , 消 掉 某 
些 节点 让 它 变 得 更 简单 。 剪 枝 的 关键 问题 是 确定 剪 掉 哪些 树 节 点 以 及 剪 掉 它们 之 后 如 何 进 
行 节点 合并 。 决 策 树 的 剪 枝 算法 可 以 分 为 两 类 ,分 别称 为 预 剪 枝 和 后 剪 枝 。 前 者 在 树 的 训 
练 过 程 中 通过 停止 分 裂 对 树 的 规模 进行 限制 ;后 者 先 构造 出 一 棵 完整 的 树 ,然后 通过 某 种 规 
则 消除 掉 部 分 节点 ,用 叶子 节点 替代 。 

预 剪 枝 可 以 通过 限定 树 的 高 度 .节点 的 训练 样本 数 、 分 裂 所 带 来 的 纯度 提升 的 最 小 值 来 
来 实现 ,具体 做 法 在 前 面 已 经 讲述 ,在 源 代 码 分 析 中 会 介绍 实现 细节 。 后 剪 枝 的 典型 实现 有 
降低 错误 前 枝 (Reduced-Error Pruning. REP) , ЗЕ 30 £5 i 98 f C Pesimistic-Error Pruning. 
PEP) {0 ffr-& Zi BE BY f (Cost-Complexity Pruning, ССР)! 等 方案 。 分 类 与 回归 树 采 用 的 
是 代价 -复杂 度 剪 枝 算法 ,下 面 重点 介绍 它 的 原理 。 

代价 是 指 剪 枝 后 导致 的 错误 率 的 变化 值 ,复杂 度 是 指 决策 树 的 规模 。 训 练 出 一 棵 决策 
树 之 后 ,前 枝 算法 首先 计算 该 决策 树 每 个 非 叶 子 节点 的 a 值 . 它 是 代价 与 复杂 度 的 比值 。 该 
值 定义 为 

d E(n) — Е(п,) 


| 2, | 一 1 
其 中 ,E(w) 是 节点 的 错误 率 ,E(n,) 是 以 节点 为 根 的 子 树 的 错误 率 。|n | 为 子 树 的 叶子 
节点 数 , 即 复杂 度 。a 值 是 用 树 的 复杂 度 归 一 化 之 后 的 错误 率 增加 值 ,即将 整个 子 树 前 掉 之 
后 用 一 个 叶子 节点 蔡 代 ,相对 于 原来 的 子 树 错 误 率 的 增加 值 。 该 值 越 小 , 剪 枝 之 后 树 的 分 类 
效果 和 剪 枝 之 前 越 接近 。 上 面 的 定义 依赖 于 节点 的 错误 率 指标 ,下 面 对 分 类 问题 和 回归 问 
题 介绍 它 的 计算 公式 。 对 于 分 类 问题 ,错误 率 定义 为 
N —max(N;) 

N 

其 中 ,N 是 节点 的 总 样本 数 ;NN; 是 第 i 类 样本 数 , 这 就 是 之 前 定义 的 误 分 类 指标 。 对 于 回归 
问题 ,错误 率 为 节点 样本 集 的 均 方 误差 : 
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子 树 的 错误 率 为 树 的 所 有 叶子 节点 错误 率 之 和 。 计 算出 a 值 之 后 , 剪 掉 该 值 最 小 的 节 

点 得 到 剪 枝 后 的 树 ,然后 重复 这 种 操作 直到 剩 下 根 节点 ,由 此 得 到 一 个 决策 树 序列 : 
Tos Visto T, 

其 中 ,Te 是 初始 训练 得 到 的 决策 树 ; T. ЖЕЛЕ T, 的 基础 上 剪 枝 得 到 的 , 即 剪 掉 T, P a 值 最 
小 的 那个 节点 为 根 的 子 树 并 用 一 个 叶子 节点 替代 后 得 到 的 树 。 

整个 剪 枝 算法 分 为 两 步 完 成 。 

第 一 步 先 训练 出 Tu ,然后 用 上 面 的 方法 逐步 剪 掉 树 的 所 有 非 叶子 节点 ,直到 只 剩 下 根 
节点 得 到 剪 枝 后 的 树 序列 。 这 一 步 的 误差 计算 采用 的 是 训练 样本 集 。 

第 二 步 根据 真实 误差 值 从 上 面 的 树 序列 中 挑选 出 一 棵 树 作为 剪 枝 后 的 结果 。 这 可 以 通 
过 交叉 验证 实现 ,用 交叉 验证 的 测试 集 对 上 一 步 得 到 的 树 序列 的 每 一 棵 树 进行 测试 ,得 到 这 
些 树 的 错误 率 , 然 后 根据 错误 率 选择 最 佳 的 树 作为 剪 梳 后 的 结果 。 


5.4 实验 程序 


下 面 通过 实验 程序 介绍 决策 树 的 使 用 ,程序 使 用 OpenCV 的 决策 树 类 。 与 贝 叶 斯 分 类 
器 的 实验 程序 一 样 , 这 里 也 有 3 类 样本 ,每 类 样本 的 特征 向 量 用 正 态 分 布 随 机 数 生成 。 训 练 
得 到 决策 树 模型 之 后 ,用 它 对 图 像 内 的 所 有 点 进行 预测 ,根据 预测 分 类 结果 将 像素 显示 成 不 
同 颜 色 。 

程序 源 代码 如 下 : 


int main(int argc, char * * argv) 
{ 
const int kWidth =512, kHeight =512; // 显示 分 类 结果 图 像 的 宽度 和 高 度 
Vec3b red(0, 0, 255), green(0, 255, 0), blue(255, 0, 0); // 显示 分 类 结果 的 3 种 颜色 
Mat image =Mat::zeros(kHeight, kWidth, CV_8UC3); 
// 为 3 类 训练 样本 标签 赋值 
int labels[30]; 
for (inti =0; i<10; i++) 
labels[i] =1; 
for (int i =10; i <20; i++) 
labels[i] =2; 
for (int i =20; i <30; i++) 
labels[i] =3; 
Mat trainResponse (30, 1, CV_32SC1, labels); 
// 用 随机 数 生成 训练 样本 特征 向 量 数组 
float trainDataArray[30][2]; 
RNG rng; 
for (int i =0; i<10; i++) 
{ 
trainDataArray[i] [0] =250 +static_cast<float> (rng.gaussian (30) ); 
trainDataArray[i] [1] =250 +static_cast<float> (rng.gaussian (30) ); 
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H 
for (int i =10; i «20; i++) 
{ 
trainDataArray[i] [0] =150 +static cast<float> (rng.gaussian(30)); 
trainDataArray[i] [1] =150 +static cast<float> (rng.gaussian(30)); 
) 
for (int і =20; i «30; i++) 
{ 
trainDataArray[i] [0] =320 +static_cast<float> (rng.gaussian (30)); 
trainDataArray [i] [1] =150 *static cast«float» (rng.gaussian (30) ); 
} 
Mat trainData(30, 2, СУ З2ЕС1, trainDataArray); 
CvDTree dtree; 
// 决策 树 的 训练 参数 ,在 后 面 的 源 代码 分 析 中 会 详细 讲解 
CvDTreeParams params (5, 1, 0, true, 2, 0, true, true, NULL); 
// 训练 决策 树 
dtree.train (trainData, CV_ROW_SAMPLE, trainResponse, cv::Mat(), cv::Mat(), 
cv::Mat(), cv::Mat(), params); 
// 对 图 像 平 面 内 所 有 点 进行 预测 ,根据 分 类 结果 显示 不 同 的 颜色 
for (int i =0; i <image.rows; i++) 
{ 
for (int j =0; j <image.cols; j++) 
{ 
Mat sampleMat = (Mat_<float> (1, 2) <<], 1); 
// 用 决策 树 进 行 预测 ,返回 分 类 结果 
float response =dtree.predict (sampleMat) ->value; 
// 根据 分 类 结果 显示 不 同 的 颜色 
if (response ==1) 
image.at<Vec3b> (i, j) =red; 
else if (response ==2) 
image.at<Vec3b> (i, j) =green; 
else 


image .at<Vec3b> (i, j) =blue; 


) 
// 用 不 同 的 亮度 显示 3 类 训练 样本 
for (int i =0; i <trainData.rows; i++) 
{ 
const float * v =trainData.ptr<float> (i); 
Point pt =Point((int)v[0], (int)v[1]); 
if (labels[i] ==1) 
circle (image, pt, 5, Scalar::all(0), -1, 8); 
else if (labels[i] ==2) 
circle (image, pt, 5, Scalar::al1(128), -1, 8); 





else 
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circle (image, pt, 5, Scalar::all(255), -1, 8); 
k 
imshow ("Decision tree classifier demo", image); 
waitKey(0); 
return 0; 


} 
程序 的 运行 结果 如 图 5.5 所 示 。 





5.5 决策 树 的 分 类 结果 


图 5.5 中 3 类 训练 样本 都 被 正确 分 类 ,它们 的 分 类 决策 线 为 直线 ,这 也 证 明 决 策 树 是 分 
段 线性 函数 。 


5.5 源 代码 分 析 


下 面 分 析 OpenCV 中 决策 树 的 实现 。 它 实现 了 分 类 与 回归 树 的 完整 功能 ,支持 数值 型 
变量 和 类 别 型 变量 ,可 以 处 理 属性 缺失 问题 ,支持 输出 变量 的 重要 性 ,还 实现 了 CCP 剪 枝 
算法 。 


5.5.1 主要 数据 结构 


结构 体 CvDTreeSplit 为 决策 树 节点 的 分 裂 规 则 , 即 判 定 规则 。 预 测 时 使 用 该 规则 进行 
判定 ,训练 时 它 将 训练 样本 集 划 分 成 两 个 不 相交 的 子 集 , 训 练 算法 要 为 每 个 节点 计算 出 该 规 
则 。 结 构 体 的 定义 如 下 : 
struct CvDTreeSplit 
{ 
int var_idx; // 分 裂 所 使 用 的 特征 分 量 的 编号 
int condensed idx; 


int inversed; // 分 支 方向 ,左右 子 树 是 否 交换 方向 
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J; 


float quality; 
CvDTreeSplit* next; 
union 
t 
int subset[2]; 
struct 
t 
float c; 
int split point; 


) ord; 


// 分 裂 质量 ,是 公式 中 的 Gini 纯度 
// 指向 下 一 个 分 裂 的 指针 ,用 于 实现 替代 分 裂 
// 分 裂 规则 ,分 数值 型 变量 与 类 别 型 变量 两 种 情况 


// 类 别 型 变量 的 值 子 集 掩 码 
// 数值 型 变量 的 阔 值 


// 比较 时 的 阔 值 
// 分 裂 点 , 仅 供 训练 算法 内 部 使 用 


对 于 类 别 型 变量 ,变量 取 值 在 值 子 集 中 则 进入 一 个 分 支 , 否 则 进入 另外 一 个 分 支 。 对 于 
数值 型 变量 ,如 果 比 阅 值 小 ,进入 一 个 分 支 ,否则 进入 另外 一 个 分 支 。 是 进入 左 分 支 还 是 进 
АЯ Л ЖШ inversed 控制 。 由 于 要 支持 替代 分 裂 ,因此 ,一 个 树 节 点 可 能 有 多 个 分 裂 规则 ， 
它们 形成 链表 结构 。 

结构 体 CvDTreeParams 是 决策 树 的 训练 参数 ,用 于 训练 函数 。 定 义 如 下 : 


struct CV EXPORTS CvDTreeParams 


{ 


}; 


int max categories; 

int max depth; 

int min sample count; 

int cv folds; 

bool use surrogates; 

bool use lse rule; 

bool truncate pruned tree; 
float regression accuracy; 


const float* priors; 


// 分 类 问题 的 类 型 数 

// 树 的 最 大 深度 ,用 于 训练 函数 ,达到 该 深度 将 停止 分 裂 
// 最 小 训练 样本 数 ,小 于 该 值 将 停止 分 裂 

// 交叉 验证 的 折 数 

// 是 否 使 用 替代 分 裂 

// 如 果 为 真 ,表示 在 剪 枝 的 过 程 中 使 用 1SE 规则 

// 如 果 为 1, 被 剪 掉 的 分 支 将 被 物理 删除 

// 回归 树 的 回归 精度 阔 值 

// 类 先 验 概率 数组 ,存放 每 个 类 的 先 验 概率 


结构 体 CvDTreeNode 是 决策 树 的 节点 ,其 中 存储 了 指向 左 子 树 、 右 子 树 和 父 节 点 的 指 
针 以 形成 树 结构 ,以 及 本 节点 的 分 裂 规 则 ,还 有 用 于 剪 枝 的 其 他 数据 。 定 义 如 下 : 


struct CvDTreeNode 


{ 


int class idx; 
int Tn; 
double value; 


CvDTreeNode * parent; 
CvDTreeNode* left; 
CvDTreeNode * right; 
CvDTreeSplit* split; 


int sample count; 


// 类 索引 , 值 为 [0, classe n -1] 

// 树 在 剪 枝 后 的 树 序列 中 的 序列 号 ,用 于 剪 枝 算法 

// 节点 值 ,对 于 分 类 树 是 类 别 标签 ;对 于 回归 树 是 一 个 实 
数值 

// 指向 父 节点 的 指针 

// 指向 左 子 树 的 指针 

// 指向 右 子 树 的 指针 

// 节点 的 分 型 规则 ,是 分 型 规 则 链表 的 头 指针 

// 本 节点 的 训练 样本 数 
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int depth; // 本 节点 的 深度 , 根 节点 为 0, 子 节点 的 深度 为 父 节 点 的 
值 +1 

// 下 面 的 变量 为 辅助 变量 , 仅 在 训练 时 使 用 

int* num valid; 

int offset; 

int buf idx; 

double maxlr; 


// 下 列 变量 用 于 实现 剪 枝 算法 


int complexity; // 树 的 复杂 度 

double alpha; //a 值 

double node risk, tree risk, tree error; // 节点 的 风险 值 

intx cv_Tn; // 交叉 验证 时 的 树 编号 , 即 剪 枝 树 序列 
double* cv node risk; // 节点 的 风险 值 数 组 

double* cv node error; // 节点 的 误差 值 数 组 


int get num valid(int vi) ( return num valid ?num valid[vi] : sample count; } 


void set num valid(int vi, int n) ( if ( num valid) num valid[vi] =n; } 


Ж CvDTree 即 决策 树 ,继承 自 CvStatModel Ж. ЕХЕ: 


class CV_EXPORTS CvDTree : public CvStatModel 


{ 


public: 


CvDTree(); 
virtual ~CvDTree(); 
virtual bool train( const CvMat* train data, int tflag, 
const CvMat * responses, const CvMat* var idx-0, 
const CvMat * sample idx-0, const CvMat* var type-0, 
const CvMat* missing mask-0, 
CvDTreeParams params- CvDTreeParams() ); 
virtual bool train( CvMLData * data, CvDTreeParams _params=CvDTreeParams () ); 
virtual float calc error( CvMLData * data, int type, std::vector«float» * 
resp -0); 
virtual bool train( CvDTreeTrainData * train data, const CvMat* _ subsample idx ); 
virtual CvDTreeNode * predict( const CvMat* sample, 
const CvMat* missing data mask-0, 
bool preprocessed input- false ) const; 
virtual const CvMat * get var importance(); 
virtual void clear(); 
virtual void read( CvFileStorage * fs, CvFileNode * node ); 
virtual void write( CvFileStorage * fs, const char* name ) const; 
virtual void read( CvFileStorage * fs, CvFileNode * node, 
CvDTreeTrainData * data ); 
virtual void write( CvFileStorage * fs) const; 
const CvDTreeNode * get root() const; 


int get pruned tree idx() const; 
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CvDTreeTrainData* get_data(); 


protected: 


friend struct cv::DTreeBestSplitFinder; 

virtual bool do train( const CvMat* subsample idx ); 

virtual void try split node( CvDTreeNode * п); 

virtual void split node data( CvDTreeNode * n); 

virtual CvDTreeSplit * find best split( CvDTreeNode * n); 

virtual CvDTreeSplit * find split ord class( CvDTreeNode * n, int vi, 
float init quality =0, CvDTreeSplit* split =0, uchar* ext buf =0 ); 

virtual CvDTreeSplit * find split cat class( CvDTreeNode * n, int vi, 
float init quality =0, CvDTreeSplit * split =0, uchar* ext buf =0 ); 

virtual CvDTreeSplit * find split ога reg( CvDTreeNode * n, int vi, 
float init quality =0, CvDTreeSplit * split =0, uchar* ext buf =0 ); 

virtual CvDTreeSplit * find split cat reg( CvDTreeNode * n, int vi, 
float init quality =0, CvDTreeSplit* split =0, uchar* ext buf =0 ); 

virtual CvDTreeSplit * find surrogate split ord( CvDTreeNode * n, int vi, 
uchar* ext buf =0 ); 

virtual CvDTreeSplit * find surrogate split cat( CvDTreeNode * n, int vi, 
uchar* ext buf =0 ); 

virtual double calc node dir( CvDTreeNode * node ); 

virtual void complete node dir( CvDTreeNode * node ); 

virtual void cluster categories( const int* vectors, int vector count, 
int var count, int* sums, int К, int* cluster labels); 

virtual void calc node value( CvDTreeNode * node ); 

virtual void prune cv(); 

virtual double update tree rnc( int T, int fold); 

virtual int cut tree( int T, int fold, double min alpha ); 

virtual void free prune data (bool cut tree); 

virtual void free tree(); 

virtual void write node( CvFileStorage* fs, CvDTreeNode * node ) const; 

virtual void write split( CvFileStorage * fs, CvDTreeSplit* split ) const; 

virtual CvDTreeNode * read node( CvFileStorage* fs, CvFileNode* node, 
CvDTreeNode * parent ); 

virtual CvDTreeSplit * read split( CvFileStorage* fs, CvFileNode * node); 

virtual void write tree nodes( CvFileStorage* fs ) const; 


virtual void read tree nodes( CvFileStorage* fs, CvFileNode* node ); 


CvDTreeNode * root; // 决策 树 的 根 节点 

CvMat * var_importance; // 变量 的 重要 性 数组 

CvDTreeTrainData* data; // 训练 样本 集 
public: 

int pruned tree idx; // 剪 枝 树 的 编号 
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55.2 ”递归 分 裂 
训练 函数 是 一 个 递归 过 程 。 用 所 有 样本 训练 根 节 点 ,得 到 根 节点 的 判定 规则 ,这 个 规则 
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将 训练 集 分 为 左右 两 个 子 集 ,然后 递归 地 训练 左 子 树 和 右 子 树 。 在 每 个 节点 处 根据 评价 标 
准 选择 最 佳 分 裂 作 为 决策 规则 。 对 于 分 类 问题 评价 分 裂 的 标准 是 Gini 纯度 ;对 于 回归 问题 
是 误差 平方 和 。 如 果 需 要 ,还 要 为 节点 寻找 替代 分 裂 规 则 。 如 果树 达到 了 指定 的 最 大 深度 ， 
节点 的 训练 样本 少 于 指定 的 阔 值 ,分 类 问题 节点 的 所 有 训练 样本 都 属于 同一 类 ,对 于 回归 问 
题 样本 方差 小 于 某 一 阔 值 , 则 终止 递归 。 

函数 do_train 实现 决策 树 的 训练 功能 。 代 码 如 下 : 





bool CvDTree::do train( const CvMat* _subsample idx ) 
{ 
bool result =false; 
CV FUNCNAME( "CvDTree::do train"); 
. BEGIN ; 
// 先 建 立根 节点 
root -data-»subsample data( subsample idx ); 
// 训练 根 节点 ,然后 递归 地 训练 左 子 树 和 右 子 树 
CV CALL( try split node (root) ); 
// 如 果 需 要 做 交叉 验证 剪 枝 则 进行 剪 枝 
if(data-»params.cv folds >0 ) 
CV CALL( prune cv()); 
// 如 果 数 据 没 有 被 共享 则 释放 训练 数据 
if( !data-» shared) 
data-»free train data(); 
result -true; 
_END ; 
return result; 


} 


函数 try_split_node 实现 递归 分 裂 和 创建 树 节点 的 功能 ,是 训练 算法 的 核心 。 代 码 
ШТ: 


void CvDTree::try split node( CvDTreeNode * node ) 
{ 


CvDTreeSplit* best split =07 // 根 节 点 的 分 裂 规则 

int i, n=node->sample_count, vi; // n 为 该 节点 的 训练 样本 数 

bool can split =true; // 是 否 能 够 进行 分 裂 的 标志 位 置 为 true 
double quality scale; 

calc node value ( node ); // 计算 节点 的 值 


// 如 果 训 练 样本 数 太 小 或 者 树 到 了 最 大 深度 , 则 不 再 分 裂 , 即 预 剪 枝 
if(node-»sample count <=data->params.min sample count || 

node- » depth »-data-»params.max depth ) 

can split =false; 
if(can split && data->is classifier ) // 如 果 可 以 分 型 ,并 且 是 分 类 树 
{ 

// 判断 本 节点 是 不 是 纯 的 , 即 只 有 一 类 样本 


int * cls count =data->counts->data.i; 





86) ЕЗЕНШ 


int nz =0, m=data->get num classes(); // nm 为 总 类 型 数 


for( i =0; i <m; i++) 


nz +=cls_count [i] !=0; // 该 类 样本 数 不 为 0, 则 nz 加 1 
// nz 为 节点 训练 样本 的 类 型 数 , 如 果 只 一 类 则 不 用 再 分 裂 
if(nz==1) 
can_split =false; 
) 
else if( сап split ) // 如 果 可 以 分 型 ,并且 是 回归 树 
{ 
// WR кА ILE DR 2E FAE E BL (A, We ЕЛЖ 
if( sqrt (node- » node risk)/n <data->params.regression_accuracy ) 
can split =false; 
) 
// 如 果 可 以 进行 分 列 


if( сап split ) 
{ 
best_split =find best_split (node); // 寻找 最 佳 分 裂 
node->split =best_split; // 将 最 佳 分裂 的 分 裂 质 量 赋 给 本 节点 
} 
if( !can split || !best_split ) 
t 


data-»free node data (node); 


return; 
) 
quality scale -calc node dir( node ); // 计算 节点 的 方向 
if( data->params.use_surrogates ) // 如 果 使 用 替代 分 裂 规 则 


{ 
// 寻找 所 有 替代 分 裂 , 根 据 它 们 和 主 分 裂 的 相似 度 进行 排序 
for( vi =0; vi «data-»var count; vi++) 
{ 
CvDTreeSplit* split; 
int ci =data- >get var буре (уі); 


if( vi==best split->var idx ) // 跳 过 最 佳 分 裂 所 用 的 变量 


continue; 
// 寻找 替代 分 裂 规 则 
if(ci»-0) // 类 别 型 变量 
split =find_surrogate_split_cat( node, vi ); 
else // 数值 型 变量 


split =find_surrogate_split_ord( node, vi ); 

if( split) 

{ 
// 将 该 分 裂 插 和 分裂 链表 中 ,这 是 标准 的 链表 插 人 算法 
CvDTreeSplit * prev split =node-> split; 
split->quality = (float) (split->quality* quality_scale); 
while( prev_split->next && 
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prev_split->next->quality >split->quality ) 
prev split -prev split-»next; 
split-»next -prev split-»next; 


prev split-»next -split; 


) 

split node data ( node ); // 节点 分 裂 

try split node( node-»left ); // 递归 训练 左 子 树 
try_split_node( node->right ); // 递归 训练 右 子 树 


} 


函数 cale_node value 计算 树 节点 的 值 ,包括 输 出 值 和 风险 值 。 对 于 分 类 树 节 点 的 值 为 
类 别 标签 ,是 本 节点 的 训练 样本 集中 样本 数 最 多 的 那 一 类 ,节点 的 风险 值 为 被 错 分 的 样本 的 
加 权 和 。 对 于 回归 树 节点 的 值 为 回归 函数 的 预测 值 ,是 节点 所 有 训练 样本 标签 值 的 均值 , 节 
点 的 风险 值 为 误差 平方 和 。 具 体 的 计算 公式 参考 5. 3.2 节 。 

函数 实现 代码 如 下 : 


void CvDTree::calc node value( CvDTreeNode * node ) 
{ 
int i, j, k, n =node->sample_count, cv n -data-»params.cv folds; 
int m=data->get_num_classes(); 
int base size =data->is_classifier ?mx cv_n* sizeof (int) : 
2* cv n* sizeof (double)+cv_n* sizeof (int); 
int ext size =n* (sizeof (int) + (data- >is classifier ?sizeof(int) : 
sizeof (int)+sizeof (float))); 
су: :AutoBuffer<uchar>inn_buf (base size +ext_size); 
uchar* base buf = (uchar * )inn buf; 
uchar* ext buf -base buf *base size; 
int* cv labels buf - (int* )ext buf; 
const int* cv labels -data-»get cv labels (node, cv labels buf); 
if(data-»is classifier) 
{ 
// 对 于 分 类 树 ,节点 的 值 是 样本 权重 和 最 大 的 那个 类 
// 节点 的 风险 (risk) 是 错 分 样本 的 加 权 和 
int * cls count =data->counts->data.i; 
int * responses buf -cv labels buf +n; 
const int* responses -data-»get class labels (node, responses buf); 
int* cv cls count = (int * )base buf; 
double max val =-1, total weight =0; 
int max k--1; 
double* priors -data-»priors mult- »data.db; 
// 首先 统计 每 个 类 的 样本 数 
Ғог( k =0; k <m; k++) 


cls_count [k] =0; 


88) HESSE 


if(cv n--0) 


t 
for( i =0; i<n; i++) 
cls_count [responses [i]]++; 
} 
е1зе 
{ 
for( j =0; j «cv n; j++) 
for( k =0; k «m; k++) 
cv cls count[j * m +k] =0; 
for( i =0; i <n; i++) 
{ 
j =cv_labels[i]; К -responses[i]; 
cv_cls_count[j*m+k]++; 
} 
for( j =0; j «cv п; j++) 
for( k =0; k «m; k++) 
cls_count[k] +=cv_cls_count[j*m+k]; 
1 


if( data->have priors && node->parent ==0 ) 
t 

double sum = 0; 

for(k=0; К <m; k++) 


{ 
int n_k =cls_count[k]; 
priors [к] =data->priors->data.db[k] * (n k ?1./n к: 0.); 
sum +=priors[k]; 

} 


sum =1./sum; 
for( К =0; k <m; k++) 


priors[k] * = зит; 


} 
Ғог( k =0; k «m; k++) // 寻找 具有 最 大 权重 和 的 那个 类 
{ 
double va1 =c1s_count [k] * priors[k]; 
total weight +=val; 
if( max val <val ) 
{ 
max val =val; 
max k =k; 
} 
1 


node-»class idx =max_k; 
node-»value -data-»cat map-»data.i[ 


data-»cat ofs-»data.i[data-»cat var count] +max k]; 


} 
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node->node risk =total weight -max val; 
for( j =0; j <cv_n; j++) 
{ 
double sum k =0, sum =0, max val К =0; 
max val =-1; max k--1; 
for( k =0; k «m; k++) 
{ 
double w -priors[k]; 
double val К =cv_cls_count[j*m+k] * w; 
double val =cls_count [k] * w -val К; 
sum k +=val_k; 
sum +=val; 
if(max val <val ) 
t 
max val -val; 
max val К -val К; 


max К =k; 


} 
поде- > су Tn[j] =INT МАХ; 
поде- > су node risk[j] =sum - тах val; 


поде- > су node error[j] -sum k - тах val К; 


else 


{ 


// 对 于 回归 树 , 节 点 的 值 为 样本 响应 值 的 均值 ,风险 是 误差 平方 和 
double sum =0, sum2 =0; 
float * values buf = (float * ) (cv labels buf +n); 
int* sample indices buf = (int * ) (values buf +n); 
const float* values -data-»get ord responses (node, values buf, 
sample indices buf); 
double * cv sum -0, * cv sum2 =0; 
int* cv count =0; 
if(cv_n==0) 
{ 
for (i=0; i <n; i++) 
{ 
double t -values[i]; 
sum +=t; 


sum? +=t* t; 


else 
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cv_sum = (double * )base buf; 
cv sum2 =cv_sum tcv n; 
CV count = (int * ) (cv sum2 +су n); 
for( j =0; j «cv n; j++) 
t 
cv sum[j] =cv_sum2[j] =0.; 
cv count[j] =0; 
} 
for( i =0; і <n; i++) 
{ 
j =су labels[i]; 
double t =values [i]; 
double s =cv_sum[j] +t; 
double 52 -cv sum2[j] +t * t; 
int nc -cv count[j] *1; 
cv sum[j] =5; 
cv sum2[j] =s2; 


cv count[j] =пс; 
for(j =0; j «cv п; j++) 


sum *-cv sum[j]; 


sum2 *-cv sum2[j]; 


) 
node-»node risk =sum2 - (sum/n) * sum; 
поде- > value -sum/n; 
for( j =0; j «cv n; j++) 
t 
double s -cv sum[j], si = зит - s; 
double s2 -cv sum2[j], 521 =sum2 - s2; 
int с =су count[j], ci =n -с; 
double г =si/MAX(ci,1); 
поде- > су node risk[j] =s2i -r* r* ci; 
поде- > су node error[j] =s2 -2*r* s *c* r* r; 


node-»cv Tn[j] - INT MAX; 
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在 前 面 介绍 过 ,寻找 最 佳 分 裂 的 方法 是 遍历 所 有 特征 、 每 个 特征 所 有 可 能 的 阔 值 ,找到 
最 好 的 分 裂 特 征 与 分 裂 闪 值 。 对 于 分 类 问题 和 回归 问题 都 分 为 数值 型 特征 和 类 别 型 特征 两 
种 情况 处 理 , 因 此 ,一 共有 A 种 情况 。 限 于 篇 幅 ,在 这 里 只 介绍 对 数值 型 变量 的 处 理 。 
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函数 find best split 是 寻找 最 佳 分 裂 的 接口 函数 。 代 码 如 下 : 


CvDTreeSplit * CvDTree::find best split( CvDTreeNode * node ) 
{ 
DTreeBestSplitFinder finder( this, node ); 
// 并 行 计算 ,寻找 所 有 变量 的 最 佳 分 裂 
cv::parallel_reduce (cv::BlockedRange(0, data->var count), finder); 
CvDTreeSplit * bestSplit -data-»new split cat( 0, -1.0f ); 
memcpy ( bestSplit, finder.bestSplit, finder.splitSize ); 
return bestSplit; 
) 


它 调 用 了 DTreeBestSplitFinder 类 的 方法 ,寻找 最 佳 分 裂 的 任务 由 这 个 类 实现 。 使 用 
DTreeBestSplitFinder 是 为 了 用 并 行 计算 进行 加 速 , 它 并 行 地 为 每 个 变量 计算 最 佳 分 裂 。 
代码 如 下 : 


void DTreeBestSplitFinder: :operator () (const BlockedRange& range) 
{ 
// vil 为 变量 的 起 始 编号 ,vi2 为 变量 的 结束 编号 
// 即 为 编号 为 [vil, vi2] 的 变量 寻找 最 佳 分 裂 
int vi, vil =range.begin(), vi2 =range.end(); 
int n -node-»sample count; // n 为 训练 样本 数 
CvDTreeTrainData* data =tree->get_data(); 
AutoBuffer<uchar>inn_buf(2*n* (sizeof (int) +sizeof(float))); 
for ( vi =vil; vi <vi2; vi++) // 对 每 个 变量 进行 处 理 
{ 
CvDTreeSplit * res; 
// 获取 变量 的 类 型 ,是 类 别 型 变量 还 是 数值 型 变量 
int ci =data- >get var буре (vi); 
// 获取 有 该 变量 值 的 样本 数 , 如 果 小 于 1 则 跳 过 该 变量 


if( node->get num valid(vi) <=1) 


continue; 
if(data-»is classifier ) // 如 果 是 分 类 树 
{ 

if(ci»-0) // 类 别 型 变量 


res =tree->find_split_cat_class( node, vi, bestSplit->quality, 
split, (uchar* inn buf ); 
else // 数值 型 变量 
res =tree->find split ord class( node, vi, bestSplit->quality, 


split, (uchar* )inn buf ); 
else // 如 果 是 回归 树 
if(ci»-0) // 类 别 型 变量 


res =tree->find split cat reg( node, vi, bestSplit->quality, 


Split, (uchar* )inn buf ); 
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else // 数值 型 变量 
res =tree->find split ога reg( node, vi, bestsplit->quality, 
split, (uchar* )inn buf ); 
j 
// 如 果 比 之 前 找到 的 最 佳 分 裂 还 要 好 , 则 将 其 作为 最 佳 分 列 
if( res && bestSplit->quality <split->quality ) 
memcpy( (CvDTreeSplit * )bestSplit, (CvDTreeSplit * ) split, 
splitSize ); 


} 


具体 功能 由 find_split_cat_class, find_split_ord_class, find_split_cat_reg, find_split_ 
ord reg 这 4 个 函数 完成 。 它 们 分 别处 理 类 别 型 变量 的 分 类 问题 .数值 型 变量 的 分 类 问题 、 
类 别 型 变量 的 回归 问题 .数值 型 变量 的 回归 问题 。 

函数 find. split ord class 为 分 类 树 的 数值 型 变量 寻找 最 佳 分 裂 阔 值 ,算法 在 5. 3. 2 节 
已 经 介绍 。 其 中 ,node 为 树 节点 的 指针 ,vi 为 要 处 理 的 变量 号 ,init_quality 为 不 纯度 的 初始 
值 。 代 码 如 下 : 


CvDTreeSplit * CvDTree::find split ord class(CvDTreeNode* node, int vi, 
float init quality, CvDTreeSplit* split, uchar* ext buf ) 


const float epsilon =FLT_EPSILON * 2; 


int п =node->sample_count; // 本 节点 的 样本 数 
int nl =node->get_num valid(vi); // 第 个 变量 有 值 的 样本 数 
int m-data-»get num classes (); // 训练 样本 的 类 型 数 


int base size -2* m* sizeof (int); 

cv::AutoBuffer«uchar» inn buf (base size); 

if(! ext buf ) 
inn buf.allocate (base size *n* (3* sizeof (int)*sizeof(float))); 

uchar* base buf = (uchar * )inn buf; 

uchar* ext buf = ext buf ? ext buf : base buf *base size; 

float* values buf = (float * )ext buf; 

int* sorted indices buf = (int * ) (values buf +n); 

int* sample indices buf -sorted indices buf +n; 

const float* values -0; 

const int* sorted indices =0; 

// 第 一 步 是 对 训练 样本 按照 该 特征 的 值 进行 升序 排序 

data-»get ord var data( node, vi, values buf, sorted indices buf, &values, 
&sorted indices, sample indices buf ); 

int* responses buf = sample indices buf +n; 

const int* responses -data-»get class labels( node, responses buf); 

const int* гс0 -data-»counts-»data.i; 

int* lc - (int * )base buf; 

int* rc =1с +m; 


int i, best і =- 
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// 不 纯度 的 初始 值 ,1sum2 H DN, , rsum2 Ж уу 
double 1sum2 =0, rsum2 =0, best val -init quality; 
const double * priors =data~>have_priors ?data-»priors mult-»data.db : 0; 
// 初始 化 每 个 类 别 在 左右 子 树 中 的 样本 数 , 开 始 时 全 部 样本 都 属于 右 子 树 
// [cl 1, c2 1, c3 1, c4 1, ..., сп 1], 左 子 树 中 每 一 类 样本 数 
// [c1 r, c2 r, c3 г, c4 r, ..., cn_r], 右 子 树 中 每 一 类 样本 数 
// nm 为 类 型 数 ,初始 化 左右 子 树 中 每 一 类 样本 数 ,所 有 样本 都 属于 右 子 树 
for( i =0; i <m; i++) 
{ 
lcli] =0; // 左边 为 0, 即 全 部 样本 属于 右边 
rc[i] -rcO[i]; // 右边 就 是 每 一 类 样本 的 数量 ,rc0[i] 为 每 一 类 样本 数 
} 
// 去 掉 那 些 属性 缺失 的 样本 ,从 nl 到 n- 1 的 样本 是 属性 缺失 的 
for(i =nl; i <n; i++) 
{ 
rc[responses[sorted indices[ill]--; 
) 
// 如 果 不 使 用 先 验 概率 , 即 样本 没有 权重 
if( !priors ) 
{ 
// 工 和 RR 分 别 为 左右 子 树 的 总 样本 数 ,初始 时 所 有 样本 都 分 到 右 子 树 
int L=0, R=nl; 
// rsum2 为 右 子 树 中 各 类 样本 数 的 平方 和 
for( i =0; i <m; i++) 
rsum2 += (double)rc[i]* rc[i]; 
// YQ RC EE BA AL, УЖ ВЕЖ, ECCE PIRE УВЕ 
// 注意 ,这 些 样 本 已 经 按照 第 vi 个 特征 分 量 的 值 排序 过 了 
for(i =0; 1<п1-1; i++) 
{ 
// sorted_indices [i] 存 放 第 工 个 样本 排序 后 的 位 置 
int idx =responses[sorted_indices[i]]; 11 % à Е] 
int lv, rv; 
// 135 i A FE K 0935 GE (TE 9 BL (C EINST CARTERA 2 Ў, KFE 
// 的 分 到 右 子 树 
// 调整 左右 子 树 中 的 样本 数 ,左边 加 1, 右 边 减 1, 即 把 本 样本 移 到 左 子 树 中 
++; R--; 
// 该 类 样本 在 左右 子 树 中 的 数量 
lv =1с[ійх]; rv =rc[idx]; 
// 调整 左右 子 树 的 类 别 频 率 平方 和 , 左 子 树 要 加 , 右 子 树 要 减 
// 用 到 了 下 列 公式 以 减少 计算 量 : 
// (x+1)?-x*=2xt1, (x-1)?-x*=- 2xt1 
lsum2 +=lv* 2 +1; 
rsum2 -=rv* 2-1; 
// ЖЕЛЕ {Н 2 JE Ae AF PEAR Н ЖСН 
lc[idx] =1у +1; rc[idx] =rv -1; 
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Пі Б i+1 个 样本 不 相等 
if( values[i] tepsilon <values[i+1] ) 
{ 
// 计算 纯度 值 ,公式 参考 5.3.2 节 
double val = (1sum2 * R +rsum2 * L)/((double)L* В); 


if( best val <val ) // 如 果 大 于 当前 最 大 值 
t 
best val -val; // 最 大 纯度 值 
best_i =i; // 最 佳 分 裂 位 置 
) 
} 
} 
} 
е1зе // 使 用 先 验 概率 , 即 样本 有 权重 值 
{ 
double L =0, R =0; // 左右 子 树 的 样本 数 初 什 
for( i =0; i <m; i++) 
t 
// 此 时 需要 将 样本 数 乘 上 该 类 的 先 验 概率 
double wv =rc[i] * priors[i]; 
// 右 子 树 总 样本 数 
R +=wv; 
// 右 子 树 各 类 样本 的 数量 平方 和 ,注意 ,是 带 权重 的 
rsum2 +=wv * wv; 
} 
for( i =0; i <nl -1; i++) 
{ 


// 下 面 的 处 理 和 不 带 先 验 概率 时 一 样 ,只 是 在 所 有 的 地 方 乘 上 了 先 验 概率 值 
int idx =responses[sorted indices[i]]; 
int lv, гу; 
double p -priors[idx], p2 =p* p; // 第 i REAR AY Jo da Е 
L+=p; R-=p; 
lv =1с[ійх]; rv =rc[idx]; 
lsum2 +=p2* (lv* 2 +1); 
rsum2 --p2* (rv* 2-1); 
lc[idx] =lv +1; rc[idx] =rv -1; 
if ( values[i] +epsilon <values[i+1] ) 
{ 
double val = (lsum2 * R + rsum2 * L) / ( (double) L* В); 
if ( best val <val ) 
{ 
best_val =val; 
best_i =i; 
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} 
CvDTreeSplit* split =0; 
if(best i >=0) 
{ 
split =_split ? split : data-»new split ord( 0, 0.0f, 0, 0, 0.0f ); 


split-»var idx =vi; // 选中 的 分 裂变 量 
split->ord.c = (values[best i] +values[best_i+1]) * 0.5£;// 最 佳 分 裂 闷 值 
split->ord.split point =best i; // 最 佳 分 裂 点 位 置 
split->inversed =07 // 左右 子 树 不 反 向 
split->quality = (float)best val; // 分 裂 质 量 , 即 不 纯度 的 值 
} 
return split; // 返回 得 到 的 最 佳 分 裂 


} 


首先 对 所 有 样本 按照 特征 值 升序 排序 ,然后 计算 所 有 可 能 阅 值 的 分 裂 质量 。 分 裂 质 量 
是 左 子 树 和 右 子 树 的 纯度 之 和 ,纯度 值 越 大 说 明 样 本 越 集中 于 同一 个 类 。 依 次 以 每 个 样本 
的 特征 值 作为 阔 值 ,将 样本 分 为 左右 两 部 分 ,计算 左右 子 树 中 的 各 类 样本 数 和 纯度 。 最 后 得 
到 纯度 的 最 大 值 ,对 应 的 是 该 变量 的 最 佳 分 裂 。 在 得 到 每 个 变量 的 最 佳 分 裂 之 后 ,比较 所 有 
样本 的 最 佳 分 裂 , 再 取 它 们 中 最 好 的 那个 ,作为 最 终 的 分 裂 。 

再 来 看 对 回归 问题 的 处 理 。 回 归 树 为 数值 型 变量 寻找 最 佳 分 裂 的 算法 在 5. 3. 2 节 已 经 
介绍 ,find_split_ord_reg 函数 实现 此 功能 。 代 码 如 下 : 


CvDTreeSplit * CvDTree::find split ога reg(CvDTreeNode * node, int vi, float 
init quality, CvDTreeSplit* split, uchar* ext buf) 


const float epsilon =FLT_EPSILON * 2; 

int n =node->sample_count; 

int nl -node-»get num valid(vi); 

cv::AutoBuffer«uchar» inn buf; 

if(! ext buf ) 
inn buf.allocate(2* n* (sizeof(int) *sizeof(float))); 

uchar* ext buf = ext buf ? ext buf : (uchar* )inn buf; 

float* values buf = (float * )ext buf; 

int* sorted indices buf = (int * ) (values buf +n); 

int* sample indices buf -sorted indices buf +n; 

const float* values =0; 

const int* sorted indices =0; 

// 在 这 里 对 训练 样本 按照 特征 的 值 进行 升序 排序 

data->get_ord var data( node, vi, values buf, sorted indices buf, &values, 
&sorted indices, sample indices buf ); 

float* responses buf =  (float*) (sample indices buf +n); 

const float* responses -data-»get ord responses ( node, responses buf, 
sample indices buf ); 

int i, best i--1; 
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} 


// rsum 为 节点 的 值 乘 以 训练 样本 数 ,节点 值 为 所 有 样本 均值 ,这 样 rsum 实际 上 
// 就 是 所 有 样本 值 的 累加 和 
double best val =init quality, lsum=0, rsum =node->value * п; 
// 左右 子 树 中 的 样本 数 ,初始 时 ,所 有 样本 属于 右 子 树 
int L=0, R-nl; 
// 处 理 属性 缺失 的 样本 
for(i=nl; i <n; i++) 
rsum -=responses[sorted іпдісеѕ [1]]; 
for(i-0;i«nl-1; i++) // 寻找 最 佳 分 裂 
{ 
// sorted indices [i] 为 排序 后 的 第 工 个 样本 的 位 置 
//t 为 第 个 样本 的 输出 值 


float t =responses[sorted indices[i]]; 


// 调整 左右 子 树 的 样本 数 

Ltt; R--; 

lsum +=t; // 左 子 树 的 和 加 上 该 样本 的 值 
rsum --t; // 右 子 树 的 和 减 掉 该 样本 的 值 


if( values[i] +epsilon <values[i+1] ) 
t 
// 计算 回归 误差 值 ,按照 前 面 介绍 的 公式 ,这 里 进行 了 通 分 
double val = (lsum* 1sum * К +rsum* rsum * 1) / ((double)L * R); 
if( best_val <val ) 
{ 
best_val =val; 


best_i =i; 


) 

CvDTreeSplit* split =0; 

if(best i >=0) 

t 
split = split ? split : data-»new split ord( 0, 0.0f, 0, 0, 0.0£ ); 
split-»var idx -vi; 
split-»ord.c = (values[best i] *values[best і+1]) * 0.5f; 
split-»ord.split point -best i; 
Split-»inversed -0; 
split->quality = (float)best val; 

) 

return split; 


这 里 的 处 理 流程 和 分 类 问题 类 似 ,只 是 将 指标 由 Gini 纯度 换 成 了 回归 误差 ,其 他 的 


相同 。 


554 寻找 替代 分 裂 
寻找 替代 分 裂 规 则 时 跳 过 主 分 裂 所 用 的 特征 ,找到 一 个 和 主 分 裂 规 则 效果 最 接近 的 分 
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裂 。 同 样 分 为 数值 型 变量 和 类 别 型 变量 两 种 情况 ,这 里 只 分 析 对 数值 型 变量 的 处 理 。 寻 找 
替代 分 裂 时 对 分 类 树 和 回归 树 做 统一 处 理 , 它 不 使 用 具体 的 分 裂 度量 指标 ,而 是 考察 蔡 代 分 
裂 和 主 分 裂 对 样本 的 分 裂 效 果 是 否 相 似 , 即 把 训练 样本 分 到 左边 还 是 右边 。 

函数 find. surrogate. split. ord. 为 单个 数值 型 变量 寻找 替代 分 裂 规则 ,其 中 vi 为 变量 
号 。 代 码 如 下 : 


CvDTreeSplit * CvDTree::find surrogate split ord(CvDTreeNode* node, int vi, 


uchar* ext buf) 


const float epsilon =FLT EPSILON * 2; 
const char* dir = (char * )data-»direction-»data.ptr; 
int n-node-»sample count, nl -node-»get num valid(vi); 
cv::AutoBuffercuchar» inn buf; 
if(! ext buf ) 
inn buf.allocate( n* (sizeof (int) * (data-»have priors ?3 : 2) *sizeof(float)) ); 
uchar* ext buf = ext buf ? ext buf : (uchar* )inn buf; 
float* values buf = (float * )ext buf; 
int* sorted indices buf = (int * ) (values buf +n); 
int* sample indices buf -sorted indices buf *n; 
const float* values -0; 
const int* sorted indices -0; 
// 先 对 样本 按照 特征 值 进行 升序 排序 
data-»get ord var data( node, vi, values buf, sorted indices buf, &values, 
&sorted indices, sample indices buf); 
// LL Jé BEE 4) UR EE I A EBAY IZ Їй FE Ж Ж 
// IR 是 被 主 分 裂 分 到 左边 、 被 蔡 代 分 型 分 到 右边 的 样本 数 
// RL 是 被 主 分 裂 分 到 右边 、 被 替代 分 裂 分 到 左边 的 样本 数 
// RR 是 被 主 分 裂 和 替代 分 裂 都 分 到 右边 的 样本 数 
int i, best i =-1, best_inversed =0; 
double best val; 


// 如 果 样 本 没有 先 验 概率 
if( !data->have_priors ) 
{ 
int LL =0, RL =0, LR, RR; 
int worst val =cvFloor(node->maxlr), best val =worst val; 
int sum =0, sum abs =0; 
Ғог( i =0; і <п1; i++) 
{ 
int d =dir[sorted indices[i]]; 
sum +=d; sum abs +=d & 1; 
} 
// sum abs =R +L; sum =R -I, 因 此 可 以 得 到 RR 和 LR 的 值 
RR = (sum_abs +sum) >>1; 


LR = (sum abs - sum) >>1; 
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// HA BRAY BR CELA FE GE (09 i MEIT kA Вт PEAS BEAN A LA E| r 
// IR 是 被 主 分 裂 分 到 左边 的 样本 数 ,RR 是 被 主 分 裂 分 到 右边 的 样本 数 
// 然后 对 每 个 立 值 计算 LL、LR、RL、RR 的 值 

for(i=0; i<nl-1; i++) 


t 


// sorted indices 为 按照 特征 值 排序 后 的 样本 编号 ,dir 为 主 分 裂 对 样本 的 

// 分 裂 结果 

int d =dir[sorted_indices[i]]; 

if(d<0) // 样本 被 主 分 裂 规 则 分 人 左边 


{ 
// 左 子 树 的 样本 数 +1, 右 子 树 的 样本 数 -1 
LL++; LR--; 
// 寻找 LL+RR 的 最 大 值 
if ( LL RR» best val && values[i] +epsilon <values[i+1] ) 
t 
best_val =LL +RR; 
best_i =i; best_inversed =0; 


} 
else if(d»0) // 样本 被 主 分 裂 规 则 分 人 右边 
{ 

RL++; RR--; 

// 寻找 RL +IR 的 最 大 值 

if(RL +LR > best val && values[i] +epsilon <values[i+1] ) 

{ 

best val =RL +18; 


best_i =i; best_inversed =1; 


) 
best val- best val; 
} 
else 
{// 如 果 样 本 有 先 验 概率 ( 即 权 重 ) 
double LL =0, RL =0, LR, RR; 
double worst_va1 =node- >max1r; 
double sum =0, sum abs = 0; 
const double * priors =data->priors_mult->data.db; 
int * responses buf -sample indices buf +n; 
const int* responses -data-»get class labels (node, responses buf); 
best val -worst val; 
for( i =0; i<nl; i++) 
{ 
int idx =sorted indices[i]; 


double w =priors [responses [idx]]; 
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int а =аіг[іах]; 
sum +=d* м; sum арз += (d & 1) * w; 
} 
// sum_abs =R +L; sum =R -L 
RR = (sum_abs +зиш) * 0.5; 
LR = (sum_abs - sum) * 0.5; 
// 这 里 只 是 多 了 样本 权重 ,其 他 的 与 前 面 的 处 理 方式 相同 
for( i =0; 1<п1-1; i++) 
t 
int idx =sorted_indices [i]; 
double w =priors [responses [idx] ]; 
int d -dir[idx]; 
if(d«0) 
{ 
LL +=w; LR --w; 
if (LL RR >best_val && values[i] +epsilon <values[i+1] ) 
{ 
best_val =LL +RR; 


best_i =i; best_inversed =0; 


} 
else if(d»0) 
{ 
RL +=w; RR -=w; 
if ( RL +LR >best_val && values[i] +epsilon <values[it+1] ) 


{ 
best_val =RL +LR; 


best_i =i; best_inversed =1; 


) 
return best i >=0 && best val >node->max1r ?data-»new split ord( vi, (values 
[best i] tvalues[best і+1]) * 0.5f, best i, best inversed, (float)best val) : 0; 


555 ”变量 的 重要 性 


决策 树 可 以 输出 变量 的 重要 性 , 即 每 个 特征 分 量 对 分 类 或 者 回归 的 贡献 大 小 。 有 具体 计 
算 方 法 为 对 每 个 变量 在 整个 决策 树 中 的 分 裂 质量 累加 求 和 ,然后 归 一 化 。 统 计 所 有 节点 的 
分 裂 质 量 需 要 对 树 进 行 遍 历 , 可 以 使 用 任何 一 种 遍历 算法 。 这 样 做 的 依据 是 ,如 果 一 个 变量 
被 选 来 做 分 裂 则 说 明 它 对 分 类 或 者 回归 很 重要 ;如 果 它 做 分 裂 时 的 分 裂 质量 很 大 ,说 明 其 对 
分 类 或 者 回归 的 贡献 很 大 。 

函数 get var importance 计算 所 有 变量 的 重要 性 。 代 码 如 下 : 
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const CvMat * CvDTree::get var importance () 
t 
if( !var importance ) 
{ 
CvDTreeNode * node =root; // 从 根 节点 开始 处 理 
double * importance; 
if( !node ) 
return 0; 
// 创建 变量 重要 性 数组 ,并 初始 化 为 0 
var importance =cvCreateMat ( 1, data- >var count, CV 64Е ); 
cvZero( var importance ); 
importance =var importance- >data.db; 
// 中 序 遍 历 二 叉 树 , 先 一 直 向 左 子 树 走 ,直到 达到 叶子 节点 ,然后 退回 ,进入 右 子 树 
for (77) 
{ 
CvDTreeNode * parent; 
for( ;; node =node->left ) // 一 直 向 左 子 树 走 
{ 
CvDTreeSplit * split =node->split; 
if( !node->left || node->Tn <=pruned tree idx) 
break; 
// 计算 分 裂 质 量 的 累加 和 ,split->var_idx 是 选择 的 分 裂变 量 
// 分 别 为 每 个 分 裂 所 用 的 变量 累加 分 裂 质 量 值 
for( ; split !=0; split =split- >next ) 
importance[split-»var idx] +=split->quality; 
} 
// 往 父 节点 回潮 
for ( parent =node- >parent; parent && parent->right ==node; 
node =parent, parent =parent->parent ) 
; 
if( !parent ) 
break; 
node -parent-» right; // 进入 右 子 树 
} 
// 数组 ni 归 一 化 
cvNormalize( var importance, var importance, 1., 0, CV L1); 
} 
return var_importance; // 返回 变量 的 重要 性 数组 


5.5.6 ”预测 算法 


预测 算法 由 函数 predict 实现 。 对 于 待 预 测 样本 ,从 根 节点 开始 根据 每 个 节点 的 规则 进 
行 分 支 比较 ,直到 达到 叶子 节点 。 函 数 只 对 一 个 样本 进行 预测 ,返回 值 为 到 达 的 叶子 节点 指 
针 。 这 里 考虑 了 属性 缺失 问题 ,如 果 发 生 属性 缺失 则 用 替代 分 裂 规 则 进行 判定 。 
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下 面 来 看 预测 函数 predict 的 实现 。 代 码 如 下 : 


CvDTreeNode * CvDTree::predict (const CvMat * sample, const CvMat х missing, 


bool preprocessed input ) const 


CvDTreeNode * result =0; 

int * catbuf =07 

CV_FUNCNAME ( "CvDTree: :predict" ); 

. BEGIN ; 

int i, step, mstep =0; 

const float* sample; 

const uchar* m =0; 

CvDTreeNode * node =root; // 从 根 节点 开始 

const int* vtype; 

const int * vidx; 

const int * cmap; 

const int* cofs; 

if ( !node ) 
CV ERROR( CV StsError, "The tree has not been trained yet" ); 

if( !CV IS MAT( sample) || CV MAT TYPE( sample-»type) !-CV 32FCl || 
(_sample->cols !-1&& sample-»rows !-1) || // 必须 是 一 行 或 者 一 列 的 向 量 
( sample-»cols +_sample->rows -1 !=data->var_a11 && !preprocessed_input) || 





( sample-»cols +_sample->rows -1 !-data-»var count && preprocessed input) ) 

CV ERROR( CV StsBadArg, 

"the input sample must be 1а floating- point vector with the same " 

"number of elements as the total number of variables used for training" ); 
sample = sample-»data.fl; // 特征 向 量 数据 
step =CV_IS MAT CONT(_sample->type) ?1 : _sample->step/sizeof (sample [0]); 
if( data->cat_count && !preprocessed_input ) 
{ 

int n =data->cat_count->cols; 

catbuf = (int * )cvStackAlloc(n* sizeof (catbuf[0])); 

for( i =0; i <n; i++) 

catbuf[i] =-1; 


if( missing) 


if( !CV IS MAT( missing) || !CV IS MASK ARR( missing) || 

!CV ARE SIZES EQ( missing, sample) ) 

CV ERROR( CV StsBadArg, 

"the missing data mask must be 8- bit vector of the same size as input sample" ); 

m= missing-»data.ptr; 

mstep -CV IS MAT CONT( missing->type) ?1 : missing-»step/sizeof (m[0]); 
) 
vtype -data-»var type-»data.i; 


vidx -data-»var idx && !preprocessed input ?data-»var idx-»data.i : 0; 
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cmap =data->cat_map ?data-»cat map-»data.i : 0; 
cofs -data-»cat ofs ?data-»cat ofs-»data.i : 0; 
// node 为 当前 节点 位 置 
while( node->Tn >pruned tree idx && node-»left ) 
{ 
CvDTreeSplit* split =node->split; 
int dir =07 
for(; !dir && split !=0; split =split->nezxt) 11 使 用 替代 分 裂 节点 
t 
int vi =split->var_idx; 
int ci =убуре [vi]; 
i =vidx ?vidx[vi] : vi; 
float val -sample[i * step]; 
if(m&& m[i*mstep]) 


continue; 
if(ci«0) // CEDERE ME, 15 Ba (AC H 
dir =val <=split->ord.c ?-1 : 1; // 进入 左 子 树 还 是 右 子 树 
else // 类 别 型 变量 .判断 变量 的 值 是 
// 否 在 取 值 的 子 集中 
{ 
int с; 


if( preprocessed input ) 
c =cvRound (val) ; 
else 
{ 
с =catbuf [сі]; 
if(c«0) 
t 
int a -c -cofs[ci]; 
int b = (сі+1 »-data-»cat ofs-»cols) ?data->cat_map->cols : 
cofs[ci+1]; 
int ival =cvRound (val); 
if(ival !=уа1 ) 
CV ERROR( CV StsBadArg, 
"one of input categorical variable is not an integer" ); 
int sh =0; 
while(a<b) 
{ 
sht++; 
c= (а +b) >>1; 
if(ival <cmap[c] ) 
b =c; 
else if ( ival >cmap[c] ) 
а=с+1; 


е1зе 


А 


р 
жож ARR (103 





break; 
} 
if( с <0 11 ival !=cmap[c] ) 
continue; 


catbuf [ci] =c --cofs[ci]; 


) 
с -( (c == 65535) && data-»is buf 160) ?-1: c; 
dir -CV DTREE САТ DIR(c, split-»subset); 


} 
if( split-»inversed ) // 是 否 需要 反 向 
dir =-dir; 
} 
if( !dir) 
t 
double diff -node-»right-» sample count -node-»left-» sample count; 
dir =diff <0 ?-1 : 1; 
} 
node =dir <0 ?node->left : node->right; // 决定 进入 左 子 树 还 是 右 子 树 


} 


result =node; 
ЕМО; 
return result; // 返回 最 后 到 达 的 叶子 节点 


5.6 应 用 


决策 树 具 有 实现 简单 .计算 量 小 的 优点 ,并 具有 很 强 的 可 解释 性 。 训 练 得 到 的 树 模型 符 
合 人 的 直观 思维 ,能 够 可 视 化 地 显示 出 来 ,因此 便于 理解 ,这 对 某 些 数据 的 分 析 非 常 重 要 。 
它 被 成 功 地 应 用 于 经 济 和 管理 数据 分 析 、 疾 病 诊 断 、 模 式 识别 等 各 类 问题 。 除 了 单独 使 用 之 
外 ,决策 树 还 作为 弱 分 类 器 用 于 随机 森林 和 AdaBoost 等 集成 学 习 算法 ,在 第 12 章 和 第 13 
章 中 将 会 详细 介绍 。 
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k 近邻 算法 


k 近邻 算法 (kKNN 算法 ) 由 Thomas 等 人 在 1967 年 提出 趾 。 它 基于 以 下 思想 ; 要 确定 
一 个 样本 的 类 别 , 可 以 计算 它 与 所 有 训练 样本 的 距离 ,然后 找 出 和 该 样本 最 接近 的 上 个 样 
本 ,统计 这 些 样 本 的 类 别 进行 投票 ,票数 最 多 的 那个 类 就 是 分 类 结果 。 因 为 直接 比较 待 预测 
样本 和 训练 样本 的 距离 ,kNN 算法 也 被 称 为 基于 实例 的 算法 。 


6.1 基本 概念 


确定 样本 所 属 类 别 的 一 种 最 简单 的 方法 是 直接 比较 它 和 所 有 训练 样本 的 相似 度 , 然 后 
将 其 归 类 为 最 相似 的 样本 所 属 的 那个 类 ,这 是 一 
种 模板 匹配 的 思想 。k 近邻 算法 采用 了 这 种 思 








路 ,图 6. 1 是 使 用 近邻 思想 进行 分 类 的 一 个 RAS iun 
例子 。 WM. | 
在 图 6.1 中 有 红色 和 绿色 ( 见 彩 插 ) 两 类 样本 。 vem os 
对 于 待 分 类 样本 即 图 中 的 黑色 点 ,我 们 寻找 离 该 样 nu 
本 最 近 的 一 部 分 训练 样本 ,在 图 中 是 以 这 个 矩形 样 ys 
本 为 圆心 的 某 一 圆 范围 内 的 所 有 样本 。 然 后 统计 e 
这 些 样本 所 属 的 类 别 , 在 这 里 红色 点 有 12 个 , 圆 形 Hel 大 近邻 分 类 示意 图 


有 2 个 ,因此 ,把 这 个 样本 判定 为 红色 这 一 类 。 上 
面 的 例子 是 二 分 类 的 情况 ,可 以 推广 到 多 类 ,k 近邻 算法 天 然 支持 多 类 分 类 问题 。 


6.2 预测 算法 


k 近邻 算法 没有 要 求解 的 模型 参数 ,因此 没有 训练 过 程 ,参数 & 由 人 工 指定 。 它 在 预测 
时 才 会 计算 待 预测 样本 与 训练 样本 的 距离 。 

对 于 分 类 问题 ,给 定 ! 个 训练 样本 (xi «y ,其 中 ,x; 为 特征 向 量 ,y; 为 标签 值 , 设 定 参数 
,假设 类 型 数 为 c, 待 分 类 样本 的 特征 向 量 为 x。 预 测算 法 的 流程 如 下 。 

СТ) 在 训练 样本 集中 找 出 离 x 最 近 的 个 样本 ,假设 这 些 样本 的 集合 为 N. 

(2) 统计 集合 N 中 每 一 类 样本 的 个 数 Ciz 一 1,…，c。 

(3) 最 终 的 分 类 结果 为 arg max,C, 。 

在 这 里 ,arg maxiC; 表示 最 大 的 C, 值 对 应 的 那个 类 i。 如 果 上 ==1,k 近邻 算法 退化 成 最 
近邻 算法 。 
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k 近邻 算法 实现 简单 ,缺点 是 当 训 练 样本 数 大 、 特 征 向 量 维 数 很 高 时 计算 复杂 度 高 。 因 
为 每 次 预测 时 要 计算 待 预 测 样本 和 每 一 个 训练 样本 的 距离 ,而 且 要 对 距离 进行 排序 找到 最 
近 的 个 样本 。 可 以 使 用 高 效 的 部 分 排序 算法 ,只 找 出 最 小 的 & 个 数 ;另外 一 种 加 速 手段 是 
用 kd 树 实现 快速 的 近邻 样本 查找 。 

一 个 需要 解决 的 问题 是 参数 & 的 取 值 。 它 需要 根据 问题 和 数据 的 特点 来 确定 。 在 实现 
时 可 以 考虑 样本 的 权重 , 即 每 个 样本 有 不 同 的 投票 权重 ,这 种 方法 称 为 带 权 重 的 人 近邻 算 
法 。 另 外 还 有 其 他 改进 措施 ,如 模糊 k 近邻 算法 咏 。 

КММ 算法 也 可 以 用 于 回归 问题 。 假 设 离 测试 样本 最 近 的 个 训练 样本 的 标签 值 为 y;， 
则 对 样本 的 回归 预测 输出 值 为 


»- (>) 


即 所 有 邻居 的 标签 均值 ,在 这 里 最 近 的 上 个 邻居 的 贡献 被 认为 是 相等 的 。 同 样 也 可 以 采用 
带 权重 的 方案 。 带 样本 权重 的 回归 预测 函数 为 


ӯ = (È wiy:)/k 
其 中 ,ww; 为 第 i 个 样本 的 权重 。 权 重 值 可 以 人 工 设 定 , 或 者 用 其 他 方法 来 确定 ,例如 ,设置 
为 与 距离 成 反比 。 


6.3 距离 定义 


KNN 算法 的 实现 依赖 于 样本 之 间 的 距离 值 ,因此 ,需要 定义 距离 的 计算 方式 。 本 节 介 
绍 几 种 常用 的 距离 定义 ,它们 适用 于 不 同 特点 的 数据 。 
两 个 向 量 之 间 的 距离 为 d(xi,x;), 这 是 一 个 将 两 个 维 数 相同 的 向 量 映 射 为 一 个 实数 的 
函数 。 距 离 函 数 必须 满足 以 下 条 件 , 第 一 个 条 件 是 三 角 不 等 式 : 
d(xis Xi) + d(x, xj) 2 d(x; +x;) 
这 与 几何 中 的 三 角 不 等 式 吻合 。 第 二 个 条 件 是 非 负 性 , 即 距离 不 能 是 一 个 负数 : 
d(x;.xj) Z 0 
第 三 个 条 件 是 对 称 性 , 即 A 到 B 的 距离 和 B 到 A 的 距离 必须 相等 : 
d(x; +x;) = 4(ху,х) 
第 四 个 条 件 是 区 分 性 ,如 果 两 点 间 的 距离 为 0, 则 两 个 点 必须 相同 : 
d(x; .x;) = 0>x; = x; 


满足 上 面 4 个 条 件 的 函数 都 可 以 用 作 距离 定义 。 
6.3.1 常用 距离 定义 


常用 的 距离 函数 有 欧 几 里 得 距离 (以 下 简称 欧 氏 距离 )、Mahalanobis 距离 等 。 欧 氏 距离 就 
是 nn 维 欧 氏 空间 中 两 点 之 间 的 距离 。 对 于 R "空间 中 有 两 个 点 x 和 y, 它 们 之 间 的 距离 定义 为 
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减少 因为 特征 值 的 尺度 范围 不 同 所 带 来 的 干扰 ,否则 数值 小 的 特征 分 量 会 被 数值 大 的 特征 
分 量 淹没 。 例如 ,特征 向 量 包 含 两 个 分 量 ,分 别 为 身高 和 肺活量 ,身高 的 范围 是 150 — 
200cm, 肺 活 量 为 2000 一 9000mL, 如 果 不 进行 归 一 化 ,身高 的 差异 对 距离 的 贡献 显然 会 被 肺 
活 量 淹没 。 欧 氏 距 离 只 是 将 特征 向 量 看 作 空 间 中 的 点 ,没有 考虑 这 些 样 本 特征 向 量 的 概率 
分 布 规律 。 

Mahalanobis 距离 是 一 种 概率 意义 上 的 距离 ,给 定 两 个 向 量 x 和 以 及 和 矩阵 S. E 
义 为 














d(x,y) = /(x—y)!S(x— y) 

要 保证 根 号 内 的 值 非 负 , 即 矩阵 S 必须 是 半 正 定 的 。 这 种 距离 度量 的 是 两 个 随机 向 量 
的 相似 度 。 当 矩阵 S 为 阶 单位 矩阵 工时 ,Mahalanobis 距离 退化 为 欧 氏 距离 。 和 矩阵 可 以 通 
过 计算 训练 样本 集 的 协 方差 矩阵 得 到 ,也 可 以 通过 训练 样本 学 习 得 到 。 

对 于 和 矩阵 如 何 确定 的 问题 有 不 少 的 研究 ,代表 性 的 有 文献 [9-12], 其 中 文献 L9] 提 出 的 
方法 具有 很 强 的 指导 意义 和 应 用 价值 。 文 献 [9] 指 出 ,kNN 算法 的 精度 在 很 大 程度 上 依赖 
于 所 使 用 的 距离 度量 标准 ,为 此 他 们 提出 了 一 种 从 带 标签 的 样本 集中 学 习 得 到 距离 度量 矩 
阵 的 方法 , 称 为 距离 度量 学 习 (Distance Metric Learning) ,我 们 将 在 6. 3. 2 节 中 介绍 。 

Bhattacharyya 距离 定义 了 两 个 离散 型 或 连续 型 概率 分 布 的 相似 性 。 对 于 离散 型 随机 
变量 的 分 布 , 它 的 定义 为 


d(x,y) —— In (> Ja; * ж) 


其 中 ,zi;、yi 为 两 个 随机 变量 取 某 一 值 的 概率 ,它们 是 向 量 x 和 y 的 分 量 , 它 们 的 值 必须 非 
负 。 两 个 向 量 越 相似 ,这 个 距离 值 越 小 。 


6.3.2 距离 度量 学 习 


Mahalanobis 距离 中 的 矩阵 S 可 以 通过 对 样本 的 学 习 得 到 ,这 称 为 距离 度量 学 习 。 踢 
离 度量 学 习 通过 样本 集 学 习 到 一 种 线性 或 非 线 性 变换 ,目前 有 多 种 实现 。 下 面 介绍 文献 [9] 
的 方法 , 它 使 得 变换 后 每 个 样本 的 & 个 最 近邻 居 都 和 它 是 同一 个 类 ,而 不 同类 型 的 样本 通过 
一 个 大 的 间隔 被 分 开 , 这 和 第 8 章 将 要 介绍 的 线性 判别 分 析 的 思想 类 似 。 如 果 原 始 的 样本 
点 为 x, 变 换 之 后 的 点 为 y, 在 这 里 要 寻找 的 是 如 下 线性 变换 : 
y= Lx 
HPL 为 线性 变换 矩阵 。 首 先 定 义 目 标 邻居 的 概念 。 一 个 样本 的 目标 邻居 是 和 该 样本 同 
类 型 的 样本 。 我 们 希望 通过 学 习 得 到 的 线性 变换 让 样本 最 接近 的 邻居 就 是 它 的 目标 邻居 : 
| 
表示 训练 样本 x; 是 样本 x; 的 目标 邻居 。 这 个 概念 不 是 对 称 的 ,x; 是 x; 的 目标 邻居 不 等 于 
х.х, 的 目标 邻居 。 
为 了 保证 kNN 算法 能 准确 分 类 ,任意 一 个 样本 的 目标 邻居 样本 要 比 其 他 类 别 的 样本 
更 接近 于 该 样本 。 对 每 个 样本 ,我 们 可 以 将 目标 邻居 想象 成 为 这 个 样本 建立 起 了 一 个 边界 ， 
使 得 和 本 样本 标签 值 不 同 的 样本 无 法 入 侵 进来 。 训 练 样本 集中 ,侵入 这 个 边界 并 且 和 该 样 
本 不 同 标签 值 的 样本 称 为 冒充 者 (Impostors) ,这 里 的 目标 是 最 小 化 冒充 者 的 数量 。 
为 了 增强 КММ 分 类 的 泛 化 性 能 ,要 让 冒充 者 离 由 目标 邻居 估计 出 的 边界 的 距离 尽 可 
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能 的 远 。 通 过 在 КММ 决策 边界 周围 加 上 一 个 大 的 安全 间隔 (Margin), 可 以 有 效 地 提高 算 
法 的 鲁 棒 性 。 

接 下 来 定义 冒充 者 的 概念 。 对 于 训练 样本 x; ,其 标签 值 为 w ,目标 邻居 为 x; ,冒充 者 是 
指 那些 和 x, 有 不 同 的 标签 值 并 且 满足 如 下 不 等 式 的 样本 x: 

|| LG; = x || < || LO; —x;) || 2 +1 
其 中 ,为 线性 变换 矩阵 , 左 乘 这 个 矩阵 相当 于 对 向 量 进行 线性 变换 。 根 据 上 面 的 定义 , a 
充 者 就 是 闽 人 了 一 个 样本 的 分 类 间隔 区 域 并 且 和 该 样本 标签 值 不 同 的 样本 。 这 个 线性 变换 
实际 上 确定 了 一 种 距离 定义 : 
| LG; = х) || = уа, —x)) GG; — x)) = JG; — xj) L'LG; — xj) 

其 中 ,LTL 就 是 Mahalanobis 距离 中 的 和 矩阵。 

训练 时 优化 的 损失 函数 由 推 损失 函数 和 拉 损 失 函 数 两 部 分 构成 。 拉 损失 函数 的 作用 是 
让 和 样本 标签 相同 的 样本 尽 可 能 与 它 接近 : 

ep (L) = >) || LG; — x;) ||? 


ji 


推 损失 函数 的 作用 是 把 不 同类 型 的 样本 推 开 : 
Epua (L) 一 х Ха — xo 1 4- || EG; ху) [®— с — x) || 23, 
如 果 у= y; 0] уу —1. 8 уу =0. MMs], LW 


[z].— max(z.0) 











如 果 两 个 样本 类 型 相同 , 则 有 
l— уг = 0 
因此 , 推 损失 函数 只 对 不 同类 型 的 样本 起 作用 。 总 损失 函数 由 这 两 部 分 的 加 权 和 构成 ， 
e(L) = (1 —)e,a (L) + HE pusr (L) 
XE pe REA TA EAR, OR ARK AB METIRI REG SUA TE TE E BE. GB EXC ZR HE 
变换 ,同类 样本 尽量 都 成 为 最 近 的 邻居 节点 ;而 不 同类 型 的 样本 会 拉 开 距离 。 这 会 有 效 地 提 
高 KNN 算法 的 分 类 精度 。 


6.4 实验 程序 


下 面 用 实验 程序 介绍 КММ 算法 的 使 用 ,程序 基于 OpenCV。 这 里 我 们 对 3 个 类 进行 分 
类 ,每 类 有 50 个 训练 样本 ,用 正 态 分 布 随机 数 生 成 。 
程序 源 代 码 如 下 : 


int main(int argc, char * * argv) 
{ 
const int kWidth =512, kHeight =512; 
const int kK =5; // кым 算法 中 的 参数 
Vec3b геа (0, 0, 255), green (0, 255, 0), blue (255, 0, 0); 
Mat image =Mat::zeros (kHeight, kWidth, CV_8UC3); 
// 为 训练 样本 标签 赋值 
int labels[150]; 
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for (inti =0; i <50; i++) 
labels [i] =1; 
for (int i =50; і <100; i++) 
labels [i] =2; 
for (int i =100; i <150; i++) 
labels[i] =3; 
Mat trainResponse (150, 1, СУ 325С1, labels); 
// 为 训练 样本 特征 向 量 数组 赋值 
float trainDataArray[150][2]; 


RNG rng; 


for (int i =0; i<50; i++) 


{ 


trainDataArray[i] [0] =250 +static_cast<float> (rng.gaussian (30) ); 


trainDataArray [i] [1] =250 +static_cast<float> (rng.gaussian (30) ); 


} 


for (int i =50; i <100; i++) 


{ 


trainDataArray[i] [0] =150 +static_cast<float> (rng.gaussian (30) ); 


trainDataArray [i] [1] =150 +static_cast<float> (rng.gaussian (30) ); 


} 


for (int і =100; і <150; i++) 


{ 


trainDataArray[i] [0] =320 +static_cast<float> (rng.gaussian (30) ); 








trainDataArray[i] [1] =150 *static cast«float» (rng.gaussian (30) ); 


} 


Mat trainData(150, 2, СУ З2ЕС1, trainDataArray); 


CvKNearest knn; 

// 训练 kNN 分 类 器 

knn.train(trainData, trainResponse) 7 

// 对 图 像 内 所 有 点 (i,j) 进 行 预测 ,并 显示 不 同 的 颜色 


for (int i =0; i <image.rows; i++) 


{ 


for (int j =0; j <image.cols; j++) 


{ 


Mat sampleMat = (Mat «float» (1, 2) <<], i); 
// кым 分 类 预测 
float response =knn.find nearest (sampleMat, kK); 
if (response ==1) 
image.at<Vec3b> (i, j) =red; 
else if (response ==2) 
image.at<Vec3b> (i, j) =green; 
else 


image.at<Vec3b> (i, j) =blue; 
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// 显示 3 类 训练 样本 


for 
{ 


} 


(int i =0; i <trainData.rows; i++) 


const float * v =trainData.ptr<float> (i); 
Point pt =Point((int)v[0], (int)v[1]); 
if (labels[i] ==1) 

circle (image, pt, 5, Scalar::all(0), -1, 8); 
else if (labels[i] ==2 

circle (image, pt, 5, Ѕса1аг::а11 (128), -1, 8); 
else 

circle (image, pt, 5, Scalar::all(255), -1, 8); 


imshow ("КММ classifier demo", image); 


waitKey (0); 


return 0; 


程序 运行 结果 如 图 6.2 所 示 。 





6.2 kNN 算法 的 分 类 效果 


在 这 里 分 类 边界 是 曲线 ,证 明了 КММ 算法 有 非 线性 分 类 的 能 力 。 由 于 实现 很 简单 ,本 
书 不 对 源 代码 进行 分 析 。 


6.5 应 用 


KNN 算法 简单 却 有 效 ,如果 能 定义 合适 的 距离 , 它 可 以 取得 很 好 的 性 能 。kNN 算法 被 
成 功 地 用 于 文本 分 类 "7 .图 像 分 类 由 等 模式 识别 问题 。 应 用 kNN 算法 的 关键 是 构造 出 
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E 向 量 以 及 确定 合适 的 距离 函数 。 
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数据 降 维 


在 很 多 应 用 问题 中 向 量 的 维 数 会 很 高 。 处 理 高 维 向 量 不 仅 给 算法 带 来 挑战 ,而 且 不 便 
于 可 视 化 ,另外 还 会 面临 维 数 灾难 (这 一 概念 在 第 14 章 中 介绍 ) 的 问题 。 降 低 向 量 的 维 数 是 
数据 分 析 中 一 种 常用 的 手段 。 本 章 介绍 最 经 典 的 线性 降 维 方法 一 一 主 成 分 分 析 , 以 及 非 线 
性 降 维 技术 一 一 流 形 学 习 算 法 。 


7.1 主 成 分 分 析 


在 有 些 应 用 中 向 量 的 维 数 非常 高 。 以 图 像 数 据 为 例 ,对 于 高 度 和 宽度 都 为 100 像素 的 
图 像 , 如 果 将 所 有 像素 值 拼接 起 来 形成 一 个 向 量 ,这 个 向 量 的 维 数 是 10 000。 一 般 情况 下 ， 
向 量 的 各 个 分 量 之 间 可 能 存在 相关 性 。 直 接 将 向 量 送 入 机 器 学 习 算法 中 处 理 效率 会 很 低 ， 
也 影响 算法 的 精度 。 为 了 可 视 化 显示 数据 ,我 们 也 需要 把 向 量变 换 到 低 维 空间 中 。 如 何 降 
低 向 量 的 维 数 并 且 去 掉 各 个 分 量 之 间 的 相关 性 ? 主 成 分 分 析 就 是 达到 这 种 目的 方法 之 一 。 


7.1.1 数据 降 维 问题 


主 成 分 分 析 (Principal Component Analysis, PCA) 中 是 一 种 数据 降 维 和 去 除 相 关 性 的 
方法 , 它 通 过 线性 变换 将 向 量 投 影 到 低 维 空间 。 | 
对 向 量 进行 投影 就 是 对 向 量 左 乘 一 个 矩阵 ,得 到 
结果 向 量 : 

y = Wx 

在 这 里 ,结果 向 量 的 维 数 小 于 原始 向 量 的 维 
数 。 降 维 要 确保 的 是 在 低 维 空间 中 的 投影 能 很 好 
地 近似 表达 原始 向 量 , 即 重 构 误差 最 小 化 。 图 7.1 
是 主 成 分 投影 示意 图 。 

在 图 7. 1 中 样本 用 红色 的 点 ( 见 彩 插 ) 表 示 ， 
倾斜 的 直线 是 它们 的 主要 变化 方向 。 将 数据 投影 
到 这 条 直线 上 即 能 完成 数据 的 降 维 ,把 数据 从 二 维 降 为 一 维 。 


74.2 计算 投影 矩阵 


核心 的 问题 是 如 何 得 到 投影 矩阵 ,和 其 他 机 器 学 习 算 法 一 样 , 它 通过 优化 目标 函数 得 
到 。 首 先 考虑 最 简单 的 情况 ,将 向 量 投影 到 一 维 空间 ,然后 推广 到 一 般 情况 。 假 设 有 7 个 4 
维 向 量 *; ,如 果 要 用 一 个 向 量 хо 来 近似 代替 它们 ,这 个 向 量 取 什么 值 的 时 候 近 似 代替 的 误 











7.1 主 成 分 投影 示意 图 
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差 最 小 如果 用 均 方 误差 作为 标准 ,就 是 要 最 小 化 如 下 函数 ， 
(j= S EE 
显然 问题 的 最 优 解 是 这 些 向 量 的 均值 ， 


证 明 很 简单 。 为 了 求 上 面 这 个 目标 函数 的 极 小 值 ,对 它 求 梯 度 并 令 梯 度 等 于 0 ,可 以 
得 到 
VL(xo) = У, — х) = 0 
解 这 个 方程 即 可 得 到 上 面 的 结论 。 只 用 均值 代表 整个 样本 集 过 于 简单 ,误差 太 大 。 作 
为 改进 ,可 以 将 每 个 向 量 表示 成 均值 向 量 和 另外 一 个 向 量 的 和 : 
х; = т+ае 
其 中 ,e 为 单位 向 量 ,a; 是 标量 。 上 面 这 种 表示 相当 于 把 向 量 投影 到 一 维 空间 ,坐标 就 是 a;。 
еа, 取 什么 值 的 时 候 ,这 种 近似 表达 的 误差 最 小 ?” 这 相当 于 最 小 化 如 下 误差 函数 : 
L(a,e) = > || m +a;e— x; ||? 
为 了 求 这 个 函数 的 极 小 值 ,对 а, 求 偏 导数 并 令 其 为 0 可 以 得 到 


2e' (m -- aje —x;) = 0 
变形 后 得 到 
dieTe = e" (x, —m) 
由 于 e 是 单位 向 量 , 因 此 ere 王 1, 最 后 得 到 
a; = e™(x; —m) 

这 就 是 样本 和 均值 的 差 对 向 量 е 做 投影 。 现 在 的 问题 是 e 的 值 如 何 选 确定 。 定 义 如 下 

散布 矩阵 : 
s= put — р) (x, — p)" 
ERE UM 28 BE ERIS AP IE PE E E BJ H Ж ДУК ОУ 


5 = ІУ = в) — и)" 
将 上 面 求 得 的 a; 带 入 目标 函数 中 ,得 到 只 有 变量 e 的 函数 : 


L(e)= D(aetm—x)T (ae +m — xi) 
i=1 





= })((ае)Тое + 2(a6)7 Qn — x) + (m х)" Gn — x,)) 
i=l 


= Уы жуа — S ans ON ca 
i=] i=1 i=l 








Set (x, m)? + У) (m x)" (m — x;) 
i=1 imi 
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У) eT Cx; m)(x; m)'e) + У) (т х)" (m — xi) 
i=l i=l 








=—e'Se + У) n — x)! G — x) 
i=1 


上 式 的 后 半 部 分 和 e 无 关 , 由 于 e 是 单位 向 量 , 因 此 有 || e ll =1 的 约束 ,这 个 约束 条 件 
可 以 写成 ere=1。 我 们 要 求解 的 是 一 个 带 等 式 约束 的 极 值 问题 , 可 以 使 用 拉 格 朗 日 乘 数 
法 。 构 造 拉 格 朗 日 函数 : 

L(e,)) =— eTSe + ACeTe — 1) 
对 e 求 梯度 并 令 其 为 0 可 以 得 到 
— 28e + 22e = 0 
即 
Se = Ае 

АЛ BE AE PE KO FP TEL «e 为 它 对 应 的 特征 向 量 , 因 此 ,上 面 的 最 优化 问题 可 以 归结 为 矩阵 
的 特征 值 和 特征 向 量 问题 。 和 矩阵 S 是 实 对 称 半 正定 矩阵 ,因此 ,一 定 可 以 对 角 化 ,并 且 所 有 
特征 值 非 负 。 事实 上 ,对 于 任意 的 非 0 向 量 x, 有 





x'$x— x” ( $6 — B) (xi =W)" )x 
i=1 
= Sx? (x — р) (х; — px 
i=l 


= DxT x – р)) (Т0; - i? 
i=l 


>o 
因此 ,这 个 矩阵 半 正 定 。 这 里 需要 最 大 化 е Se 的 值 ,由 于 
eTSe = Дете = А 
因此 ,， 为 散 度 矩 阵 最 大 的 特征 值 时 ,erSe 有 极 大 值 .目标 函数 取得 极 小 值 。 将 上 述 结 
论 从 一 维 推广 到 4’ 维 ,每 个 向 量 可 以 表示 成 


在 这 里 e, 是 单位 向 量 。 误 差 函 数 变 成 


п 4 
L= p» [m + > аге, — Xi 
可 以 证 明 , 使 得 该 函数 取 最 小 值 的 e 为 散 度 矩阵 最 大 的 & 个 特征 值 对 应 的 单位 长 度 特 

征 向 量 , 即 求解 下 面 的 优化 问题 : 


2 








miny — tr(WTSW) 

Ww = I 
其 中 :tr ABI. PEBE W 的 列 e; 是 要 求解 的 基 向 量 。 散 度 矩 阵 是 实 对 称 和 矩阵 ,属于 不 
同 特征 值 的 特征 向 量 相互 正 交 。 前 面 已 经 证 明 这 个 抢 阵 半 正 定 , 特 征 值 非 负 。 这 些 特征 向 
量 构成 一 组 基 向 量 , 可 以 用 它们 的 线性 组 合 来 表达 向 量 x。 从 另外 一 个 角度 来 看 ,这 种 变换 
将 协 方差 矩阵 对 角 化 ,相当 于 去 除了 各 分 量 之 间 的 相关 性 。 
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从 上 面 的 推导 过 程 可 以 得 到 计算 投影 矩阵 的 流程 如 下 。 

(1) 计算 样本 集 的 均值 向 量 , 将 所 有 向 量 减 去 均值 ,这 称 为 白化 。 

(2) 计算 样本 集 的 协 方差 矩阵 。 

(3) 对 方差 矩阵 进行 特征 值 分 解 ,得 到 所 有 特征 值 与 特征 向 量 。 

CD 将 特征 值 从 大 到 小 排序 ,保留 最 大 的 一 部 分 特征 值 对 应 的 特征 向 量 ,以 它们 为 行 ， 
形成 投影 矩阵 。 

具体 保留 多 少 个 特征 值 由 投影 后 的 向 量 维 数 决定 。 使 用 协 方差 矩阵 和 使 用 散 度 和 矩阵 是 
等 价 的 ,因为 后 者 是 前 者 的 售 , 而 矩阵 A 和 nA 有 相同 的 特征 向 量 。 


7.1.3 向 量 降 维 


得 到 投影 矩阵 之 后 可 以 进行 向 量 降 维 ,将 其 投影 到 低 维 空间 。 向 量 投影 的 流程 如 下 。 
CD 将 样本 减 掉 均 值 向 量 。 
(2) 左 乘 投影 矩阵 ,得 到 降 维 后 的 向 量 。 


7.1.4 向 量 重 构 


向 量 重 构 指 根据 投影 后 的 向 量 重 构 原 始 向 量 ,与 向 量 投影 的 作用 和 过 程 相 反 。 向 量 重 
构 的 流程 如 下 。 

(1) 输入 向 量 左 乘 投影 矩阵 的 转 置 矩 阵 。 

(2) 加 上 均值 向 量 , 得 到 重 构 后 的 结果 。 

从 上 面 的 推导 过 程 可 以 看 到 ,在 计算 过 程 中 没有 使 用 样本 标签 值 ,因此 , 主 成 分 分 析 是 
一 种 无 监督 学 习 算法 。 除 了 标准 算法 之 外 它 还 有 多 个 变种 ,如 稀 朴 主 成 分 分 析 、 核 主 成 分 分 
Jr 、 概 率 主 分 量 分 析 等 。 


7.2 源 代 码 分 析 


下 面 分 析 OpenCV 中 主 成 分 分 析 的 实现 。 它 实现 了 完整 的 功能 ,包括 计算 投影 矩阵 、 
向 量 降 维和 向 量 重 构 。 


7.2.1 主要 数据 结构 
类 PCA 实现 了 主 成 分 分 析 的 功能 。 类 PCA 定义 如 下 : 


class CV_EXPORTS PCA 

{ 

public: 
PCA(); 
PCA(InputArray data, InputArray mean, int flags, int maxComponents- 0); 
PCA(InputArray data, InputArray mean, int flags, double retainedVariance); 
PCA& operator () (InputArray data, InputArray mean, int flags, int maxComponents-0); 
PCA& computeVar (InputArray data, InputArray mean, int flags, 

double retainedVariance); 


Mat project (InputArray vec) const; 
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void project (InputArray vec, OutputArray result) const; 
Mat backProject (InputArray vec) const; 
void backProject (InputArray vec, OutputArray result) const; 


Mat eigenvectors; // 协 方差 矩阵 的 特征 向 量 , 即 投影 矩阵 
Mat eigenvalues; // 协 方差 矩阵 的 特征 值 
Mat mean; // 样本 集 的 均值 向 量 


J; 


7.2.2 ”计算 投影 矩阵 
函数 operator 计算 投影 矩阵 ,处 理 流 程 和 7. 1.2 节 介绍 的 相同 。 代 码 如 下 : 


PCA& PCA: :operator () (InputArray data, InputArray mean, int flags, 


int maxComponents) 


Mat data = data.getMat(), mean =  mean.getMat(); 
int covar_flags =CV_COVAR_SCALE; 
int i, len, in_count; 
Size mean_sz; 
CV Assert( data.channels() ==1); 
if( flags & СУ РСА DATA AS COL) 
{ 
len =data.rows; 
in count =data.cols; 
covar flags |-CV COVAR COLS; 
mean Sz -Size(1, len); 
) 
else 
{ 
len =data.cols; 
in count =data.rows; 
covar flags |-CV COVAR ROWS; 
mean sz -Size (len, 1); 
) 
int count =std::min(len, in count), out count -count; 
if(maxComponents >0 ) 
out_count =std::min(count, maxComponents) ; 
if ( len <=in_count ) 
covar_flags |=CV_COVAR_NORMAL; 
int ctype =std::max(CV_32F, data.depth()); 
mean.create( mean sz, ctype ); 
Mat covar( count, count, ctype ); 
if( mean.data ) 
{ 
CV Assert( mean.size() ==шеап 52); 


 mean.convertTo (mean, ctype); 
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covar flags |=CV_COVAR_USE_AVG; 
) 
// 计算 协 方差 矩阵 
calcCovarMatrix( data, covar, mean, covar flags, ctype ); 
// 对 协 方差 矩阵 进行 特征 值 分 解 
// eigenvalues 为 分 解 得 到 的 特征 值 ,eigenvectors 为 对 应 的 特征 向 量 
// 如 果 对 特征 值 分 解 的 实现 感 兴趣 ,可 以 阅读 这 个 函数 的 源 代码 
eigen( covar, eigenvalues, eigenvectors ); 
if(!(covar flags & CV COVAR NORMAL) ) 
t 
Mat tmp data, tmp mean -repeat (mean, data.rows/mean.rows, 
data.cols/mean.cols); 
// 所 有 样本 向 量 减 去 均值 向 量 
if(data.type() !=ctype || tmp mean.data ==mean.data ) 
t 
data.convertTo( tmp data, ctype ); 
subtract( tmp data, tmp mean, tmp data ); 
} 
е1ѕе 
{ 
subtract ( data, tmp mean, tmp mean); 
tmp data -tmp mean; 
) 
Mat evectsl(count, len, ctype); 
// 减 去 均值 向 量 之 后 ,与 特征 向 量 矩 阵 相 乘 ,完成 投影 
gemm( eigenvectors, tmp data, 1, Mat (), 0, evects1, 
(flags & CV PCA DATA AS COL) ?CV GEMM B T : 0); 
eigenvectors -evectsl; 
// 将 所 有 特征 向 量 归 一 化 ,因为 特征 值 分 解 并 没有 做 这 个 归 一 化 操作 
for( i =0; i <out_count; i++) 
{ 
Mat vec =eigenvectors.row(i); 
normalize (уес, уес); // 向 量 归 一 化 


} 
if( count »out count ) // 只 保留 最 大 的 一 部 分 特征 值 和 对 应 的 特征 向 量 
{ 

eigenvalues =eigenvalues.rowRange (0,out count).clone(); 


eigenvectors =eigenvectors.rowRange (0,out count).clone(); 


} 


return * this; 


} 


实现 主 分 量 分 析 的 核心 是 对 矩阵 进行 特征 值 分 解 ,矩阵 的 规模 和 向 量 的 维 数 相 同 ,如果 
维 数 非常 高 ,计算 量 也 会 很 大 。 
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7.23 向 量 降 维 
函数 project 实现 向 量 降 维 , 处 理 流程 与 7.1. 3 节 介 绍 的 相同 。 代 码 如 下 : 


void PCA::project(InputArray data, OutputArray result) const 


{ 
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Mat data =_data.getMat (); 
CV Assert( mean.data && eigenvectors.data && 
((mean.rows ==1 && mean.cols ==data.cols) || (mean.cols ==1 && 
mean.rows ==data.rows))); 
Mat tmp data, tmp mean =repeat (mean, data.rows/mean.rows, data.cols/mean.cols); 
int ctype -mean.type(); 
// 首先 减 去 均值 向 量 
if(data.type() !=ctype || tmp mean.data ==mean.data ) 
{ 
data.convertTo( tmp data, ctype ); 
subtract( tmp data, tmp mean, tmp data ); 
) 
else 
t 
subtract( data, tmp mean, tmp mean); 
tmp data -tmp mean; 
) 
// 然 后 左 乘 特 征 向 量 矩 阵 , 结 果 即 为 投影 后 的 向 量 


if(mean.rows ==1) // 如 果 向 量 按照 行 存储 ,计算 хи" 
gemm( tmp data, eigenvectors, 1, Mat () 0, result, GEMM 2 Т); 
else // 如 果 向 量 按照 列 存储 ,计算 Wx 


gemm( eigenvectors, tmp data, 1, Mat (), 0, result, 0); 


向 量 重 构 


函数 backProject 实现 向 量 重 构 ,处 理 流 程 与 7.1.4 节 介 绍 的 相同 。 代 码 如 下 : 


void PCA::backProject(InputArray data, OutputArray result) const 


{ 


Mat data =_data.getMat (); 
CV Assert( mean.data && eigenvectors.data && 

((mean.rows ==1 && eigenvectors.rows ==data.cols) || 

(mean.cols ==1 && eigenvectors.rows ——data.rows))); 

Mat tmp data, tmp mean; 
data.convertTo (tmp data, mean.type()); 
if(mean.rows ==1 ) // 如 果 向 量 按照 行 存储 
{ 

tmp_mean =repeat (mean, data.rows, 1); 


// 计算 уй+т 
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gemm( tmp_data, eigenvectors, 1, tmp_mean, 1, result, 0); 
} 
е1зе // 如 果 向 量 按照 列 存储 
{ 
tmp mean =repeat (mean, 1, data.cols); 
// 计算 W yem 
gemm( eigenvectors, tmp data, 1, tmp mean, 1, result, GEMM 1 T ); 


7.3 流 形 学 习 


主 成 分 分 析 是 一 种 线性 降 维 技术 ,对 于 非 线 性 数据 具有 局 限 性 ,而 在 实际 应 用 中 很 
多 时 候 数据 是 非 线 性 的 。 此 时 可 以 采用 非 线 性 降 维 技术 , 流 形 学 习 (Manifold Learning) 
是 典型 的 代表 。 除 此 之 外 ,第 9 章 介绍 的 人 工 神经 网 络 也 能 完成 非 线性 降 维 任务 。 这 些 
方法 都 使 用 非 线 性 函数 将 原始 输入 向 量 x 映射 成 更 低 维 的 向 量 y, 向 量 y 要 保持 x 的 某 
些 信息 : 
у = ф(х) 
流 形 是 几何 中 的 一 个 概念 , 它 是 高 维 空间 中 的 几何 结构 , 即 空间 中 的 点 构成 的 集合 ,可 
以 简单 地 将 流 形 理解 成 二 维 空间 中 的 曲线 、 三 维 空间 中 的 曲面 在 更 高 维 空间 的 推广 。 
图 7. 2 是 三 维 空间 中 的 一 个 流 形 ,这 是 一 个 卷曲 面 。 











7.2 三 维 空间 中 的 一 个 流 形 


很 多 应 用 问题 的 数据 在 高 维 空间 中 的 分 布 具有 某 种 几何 形状 ,即位 于 一 个 低 维 的 流 形 
附近 。 例 如 ,同一 个 人 的 人 脸 图 像 在 高 维 的 空间 中 可 能 是 一 个 复杂 的 形状 。 流 形 学 习 假 设 
原始 数据 在 高 维 空间 的 分 布 位 于 某 一 更 低 维 的 流 形 上 ,基于 这 个 假设 来 进行 数据 的 分 析 。 
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对 于 降 维 ,要 保证 降 维 之 后 的 数据 同样 满足 与 高 维 空间 流 形 有 关 的 几何 约束 关系 。 除 此 之 
外 , 流 形 学 习 还 可 以 用 于 实现 聚 类 、 分 类 和 回归 算法 ,在 后 面 各 章 中 会 详细 介绍 。 
假设 有 一 个 N 维 空 间 中 的 流 形 M «B MCR N , 流 形 学 习 降 维 要 实现 的 是 如 下 映射 : 
M—R" 
其 中 ,n<N, 即 将 N 维 空间 中 流 形 M 上 的 点 映射 为 n 维 空间 中 的 点 。 下 面 介绍 几 种 典型 的 
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局 部 线性 嵌入 加 (Locally Linear Embedding，LLE) 将 高 维 数据 投影 到 低 维 空间 中 ,并 
保持 数据 点 之 间 的 局 部 线性 关系 。 其 核心 思想 是 每 个 点 都 可 以 由 与 它 相 邻 的 多 个 点 的 
线性 组 合 来 近似 重 构 ,投影 到 低 维 空间 之 后 要 保持 这 种 线性 重 构 关 系 , 即 有 相同 的 重 构 

假设 数据 集 由 工 个 了 维 向 量 x; 组 成 ,它们 分 布 在 D 维 空间 中 的 一 个 流 形 附近 。 每 个 
数据 点 和 它 的 邻居 位 于 或 者 接近 于 流 形 的 一 个 局 部 线性 片段 上 , 即 可 以 用 邻居 点 的 线性 组 
合 来 重 构 , 组 合 系数 刻画 了 局 部 面 片 的 几何 特性 : 

X; == У) ws; 

权重 wi 为 第 j 个 数据 点 对 第 i 个 点 的 组 合 权重 ,这 些 点 的 线性 组 合 被 用 来 近似 重 构 数 

据点 i。 权重 系数 通过 最 小 化 下 面 的 重 构 误差 确定 : 
min, 59 | X; — M wx; |’ 

在 这 里 还 加 上 了 两 个 约束 条 件 : 每 个 点 只 由 它 的 邻居 来 重 构 ,如 果 x; 不 在 x; 的 邻居 集 

合 里 则 权重 值 为 0。 另外 ,限定 权重 矩阵 的 每 一 行 元 素 之 和 为 1, 即 
У = 1 

这 是 一 个 带 约束 的 优化 问题 ,求解 该 问题 可 以 得 到 权重 系数 。 这 一 问题 和 主 成 分 分 析 
要 求解 的 问题 类 似 。 可 以 证 明 , 这 个 权重 值 对 平移 旋转、 缩放 等 几何 变换 具有 不 变性 。 

假设 算法 将 向 量 从 D 维 空间 的 x 映射 为 维 空间 的 y。 每 个 点 在 4 维 空间 中 的 坐标 由 
下 面 的 最 优化 问题 确定 : 
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miny, 2; | = Учу, 
这 里 的 权重 和 上 一 个 优化 问题 的 值 相同 ,在 前 面 已 经 得 到 。 优 化 的 目标 是 y; ,这 个 优 
化 问题 等 价 于 求解 稀 玻 矩阵 的 特征 值 问题 。 得 到 y 之 后 , 即 完成 了 从 D 维 空间 到 а 维 空间 
的 非 线性 降 维 。 
图 7.3 为 用 LLE 算 法 将 手写 数字 图 像 投 影 到 三 维 空间 后 的 结果 。 


732 拉 普 拉 斯 特征 映射 


拉 普 拉 斯 特征 映射 外 (Laplacian Eigenmaps. LE) 是 基于 图 论 的 方法 。 它 从 样本 点 构 
造 带 权重 的 图 ,然后 计算 图 的 拉 普 拉 斯 矩阵 ,对 该 矩阵 进行 特征 值 分 解 得 到 投影 变换 。 
图 是 离散 数学 和 数据 结构 中 的 一 个 概念 。 一 个 图 由 节点 (也 称 为 顶点 ) 和 边 构 成 ,任意 
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图 7.3 用 LLE 算 法 将 手写 数字 图 像 投影 到 三 维 空间 后 的 结果 


两 个 节点 之 间 可 能 都 有 边 进行 连接 。 边 可 以 带 有 值 信息 ,例如 ,两 点 之 间 的 距离 。 图 7.4 是 
一 个 简单 的 无 向 图 。 


图 7.4 一 个 简单 的 无 向 图 


图 的 边 可 以 是 有 向 的 ,也 可 以 是 无 向 的 ,前 者 称 为 有 向 图 ,后 者 称 为 无 向 图 。 我 们 可 以 
将 地 图 表示 成 一 个 图 ,每 个 地 点 是 节点 ,如 果 两 个 地 点 之 间 有 路 连接 , 则 有 一 条 边 。 如 果 这 
条 路 是 单行 线 , 则 边 是 有 向 的 ,否则 是 无 向 的 。 

节点 的 度 定义 为 包含 一 个 顶点 的 边 的 数量 ,对 于 有 向 图 它 还 分 为 出 度 和 入 度 , 出 度 是 指 
从 一 个 顶点 射出 的 边 的 数量 ,入 度 是 连 入 一 个 节点 的 边 的 数量 。 边 可 以 带 有 权重 ,例如 表示 
两 个 地 点 之 间 的 距离 。 无 向 图 可 以 用 三 元 组 形式 化 地 表示 为 

(V.E.w) 

其 中 ,V 是 顶点 的 集合 ;E 是 边 的 集合 ;w 是 边 的 权重 函数 , 它 为 每 条 边 赋予 一 个 正 的 权重 
值 ,如 地 图 上 两 点 间 的 距离 。 假 设 i 和 j 为 图 的 项 点 ,wi 为 边 (i,j) 的 权重 ,由 它 构成 的 矩阵 
W 称 为 邻接 和 矩阵。 显然 ,无 向 图 的 邻接 矩阵 是 一 个 对 称 矩 阵 。 
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拉 普 拉 斯 矩阵 是 图 的 一 种 矩阵 表示 ,通过 构造 邻接 和 矩阵。 定义 节点 i 的 带 权重 的 度 为 
与 该 节点 相关 的 所 有 边 的 权重 之 和 : 








d; = У 
XE SB I D 为 一 个 对 角 和 矩阵 ,其 主 对 角 线 元 素 为 每 个 顶点 带 权 重 的 度 ， 
d + 0 
0 ... d, 
其 中 ,为 图 的 顶点 数 。 图 的 拉 普 拉 斯 矩阵 定义 为 
L=D—W 


根据 定义 ,无 向 图 的 拉 普 拉 斯 矩阵 是 一 个 对 称 和 矩阵 。 可 以 证 明 , 它 是 半 正 定 和 矩阵 ,因此 ， 
所 有 特征 值 为 非 负 实数 。 降 维 变换 通过 对 拉 普 拉 斯 矩阵 进行 特征 值 分 解 得 到 。 下 面 给 出 矩 
阵 半 正定 的 证 明 。 对 于 任意 的 非 0 向 量 f .有 
f'Lf= f'Df — f'wf 
= Didi? — Dwf; 


= i(XMan-2:231Y wf + Vass) 
(È 57-2) Dw fif; + >) wf) 


i=1 j= i=1 j=1 j=1 ied 


коре 


Py А , 
= 3 2121 (wy fl — 2w fif, + us fi) 


i=1 j=l 


-lXXwu-n*z0 


i=1 j= 


因此 , 拉 普 拉 斯 矩阵 半 正 定 。 下 面 介 绍 通过 拉 普 拉 斯 矩阵 进行 数据 降 维 的 具体 做 法 。 

假设 有 一 批 样本 点 mm охо ое ,x ,它们 是 R ! 空 间 的 向 量 , 降 维 的 目标 是 将 它们 变换 为 更 
TIC HERR " 2s [a] rp a qp fit ya sys eru EP т, HEX Б x xs ix CM JEM 
为 嵌入 及 空间 中 的 一 个 流 形 。 

算法 为 样本 点 构造 加 权 图 ,图 的 节点 是 每 一 个 样本 点 , 边 为 每 个 节点 与 它 的 邻居 节点 之 
间 的 相似 度 , 每 个 节点 只 与 它 的 邻居 有 连接 关系 。 

算法 的 第 一 步 是 构造 图 的 邻接 关系 。 如 果 样 本 点 x; 和 样本 点 xi; 的 距离 很 近 , 则 为 图 
的 车 点 和 节点 j 建立 一 条 边 。 判 断 两 个 样本 点 是 否 解 接近 的 方法 有 两 种 。 第 一 种 是 计算 
二 者 的 欧 氏 距离 ,如果 距 离 小 于 某 一 值 e 则 认为 两 个 样本 很 接近 : 

[х= x, ||?” «e 

其 中 ,e EP A TE AY A. 58 — 87r 3l f HE Xr SAR HERG 最 近 的 
п 个 邻居 节点 的 集合 中 ,或 者 节点 j 在 节点 i 最 近 的 n 个 邻居 节点 的 集合 中 , 则 认为 二 者 距 
离 很 近 。 

第 二 步 是 计算 边 的 权重 ,在 这 里 也 有 两 种 选择 。 第 一 种 方法 为 ,如 果 节 点 i 和 节点 j 是 
连通 的 , 则 它们 之 间 的 边 的 权重 为 
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wj = Е F 
否则 зө, 二 0。 其 中 ,t 是 一 个 人 工 设 定 的 大 于 0 的 实数 。 第 二 种 方式 是 如 果 节 点 i 和 节点 j 
是 连通 的 , 则 它们 之 间 边 的 权重 为 1 ,否则 为 0。 
第 三 步 是 特征 映射 。 假 设 构造 的 图 是 连通 的 , 即 任何 两 个 节点 之 间 都 有 路 径 可 达 , 如 果 
不 连通 , 则 算法 分 别 作用 于 每 个 连通 分 量 上 。 根 据 前 面 构造 的 图 计算 它 的 拉 普 拉 斯 矩阵 , 然 
后 求解 如 下 广义 特征 值 和 特征 向 量 问题 : 
Lf = Ау 
由 于 是 实 对 称 和 矩阵 中 的 半 正 定 和 矩阵 ,因此 特征 值 非 负 。 假 设 fos fa eee ,fi-1 是 这 个 广 
义 特征 值 问题 的 解 ,它们 按照 特征 值 的 大 小 升序 排列 , 即 
0о=%»<А <: <А 
去 掉 值 为 0 的 特征 值 ,用 剩 下 的 m AERE 16] ht Ж FE HE BE JA: EIS] ht 2 3 ILL 
它们 为 基 的 空间 中 。 在 这 里 也 是 通过 寻找 一 个 投影 矩阵 实现 数据 的 降 维 , 投 影 矩 阵 也 是 
通过 求解 特征 值 问题 构造 。 图 7. 5 是 拉 普 拉 斯 特征 映射 对 三 维 数据 进行 降 维 的 一 个 
例子 。 





(a) 三 维 空间 中 的 样本 分 布 (b) 降 维 后 的 结果 
图 7.5 拉 普 拉 斯 特征 映射 对 三 维 数据 进行 降 维 


图 7.5(a) 中 为 三 维 空间 中 的 样本 分 布 ,图 7.5(Cb) 为 降 维 后 的 结果 。 这 种 变换 起 到 的 效 
果 大 致 上 相当 于 把 三 维 空间 中 的 曲面 拉平 之 后 铺 到 二 维 平 面 上 。 
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局 部 保持 投影 (Locality Preserving Projection，LPP) 呈 通过 求解 能 够 最 好 地 保持 一 个 
数据 集 的 邻居 结构 信息 的 变 分 问题 来 构造 投影 映射 ,其 思路 和 拉 普 拉 斯 特征 映射 类 似 , 也 是 
一 种 基于 图 论 的 方法 。 

假设 有 样本 集 x ,zz etm :它们 是 有 "空间 中 的 向 量 。 这 里 的 目标 是 寻找 一 个 变换 矩 
阵 A, 将 这 些 样本 点 映射 到 更 低 维 的 R' 空 间 , 得 到 向 量 ys ,ys，… y, ,使 得 y; 能 够 代表 x; ,其 
h<: 

ж= ATX; 


А 
À 
STE BBB (123 
(BLE x exe ex € M Ж.М ER "Ze Eh — Ie OE. 


算法 的 第 一 步 是 根据 样本 构造 图 ,这 和 拉 普 拉 斯 特征 映射 的 做 法 相同 ,包括 确定 两 个 节 
点 是 否 连 通 以 及 计算 边 的 权重 ,在 这 里 不 再 重复 介绍 。 
第 二 步 是 特征 映射 ,计算 如 下 广义 特征 向 量 问 题 : 
XLX'a = AXDX'a 
ERE LAD 的 定义 与 计算 方式 和 7. 3. 2 节 相 同 ,矩阵 XX 是 将 样本 按 列 排列 形成 的 。 假 
设 上 面 广义 特征 向 量 问题 的 解 为 ao «ai s aia 它们 对 应 的 特征 值 满足 
do < À < <А 
要 寻找 的 降 维 变换 矩阵 为 
x; > yi = Ах, А = (aoa) sam) 


у 是 一 个 i 维 的 向 量 ;A 是 一 个 nX1 的 矩阵 。 对 向 量 左 乘 矩 阵 А 即 可 完成 数据 的 降 维 。 
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等 距 映 射 (Isomap) 中 使 用 微分 几何 中 测 地 线 的 思想 , 它 希 望 数据 在 向 低 维 空间 映射 之 
后 能 够 保持 流 形 上 的 测 地 线 距 离 。 

测 地 线 源 自 于 大 地 测量 学 ,是 地 球 上 任意 两 点 之 间 在 球面 上 的 最 短路 径 。 在 三 维 空间 
中 两 点 之 间 的 最 短 距 离 是 它们 之 间 线 段 的 长 度 , 但 如 果 要 沿 着 地 球 表面 走 , 最 短 距 离 就 是 测 
地 线 的 长 度 , 因 为 人 们 不 能 从 地 球 内 部 穿 过 去 。 这 里 的 测 地 线 就 是 球面 上 两 点 之 间 大 圆 上 
劣 弧 的 长 度 。 算 法 计算 任意 两 个 样本 之 间 的 测 地 距离 ,然后 根据 这 个 距离 构造 距离 矩阵 。 
最 后 通过 距离 矩阵 求解 优化 问题 完成 数据 的 降 维 , 降 维 之 后 的 数据 保留 了 原始 数据 点 之 间 
的 距离 信息 。 

在 这 里 测 地 线 距离 通过 图 构造 ,是 图 的 两 个 节点 之 间 的 最 短 距离 。 算 法 的 第 一 步 构造 
样本 集 的 邻居 图 ,这 和 前 面 介绍 的 两 种 方法 相同 。 如 果 两 个 数据 点 之 间 的 距离 小 于 指定 阔 
值 或 者 其 中 一 个 节点 在 另外 一 个 节点 的 邻居 集合 中 , 则 两 个 节点 是 连通 的 。 假 设 有 N 个 样 
本 , 则 邻居 图 有 N 个 节点 。 邻 居 图 的 节点 i 和 j 之 间 边 的 权重 为 它们 之 间 的 距离 w; ,距离 
的 计算 可 以 有 多 种 选择 。 

第 二 步 计 算 图 中 任意 两 点 之 间 的 最 短路 径 长 度 ,可 以 通过 经 典 的 Dijkstra 算法 实现 。 
假设 最 短路 径 长 度 为 d G.; Hc Mis n P ABE: 

De = {de(i,))} 
其 元 素 是 所 有 节点 对 之 间 的 最 短路 径 长 度 。 算 法 的 第 三 步 根据 矩阵 Do 构造 d ДЕНЕ А.Х 
通过 求解 如 下 最 优化 问题 实现 : 
айа, 53 Sas.) — | ус у; ll)? 

这 个 问题 的 解 y; 即 为 降 维 之 后 的 向 量 。 这 个 目标 函数 的 意义 是 向 量 降 维 之 后 任意 两 
点 之 间 的 距离 要 尽量 地 接近 在 原始 空间 中 这 两 点 之 间 的 最 短路 径 长 度 ,因此 ,可 以 认为 降 维 
尽量 保留 了 数据 点 之 间 的 测 地 距离 信息 。 图 7.6 为 等 距 映 射 将 手写 数字 图 像 投 影 到 三 维 空 
间 后 的 结果 。 
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图 7.6 等 距 映射 的 投影 结果 






7.4 应 用 
主 成 分 分 析 被 大 量 地 用 于 科学 与 工程 数据 分 析 中 需要 数据 降 维 的 地 方 ,是 一 种 通用 性 


非常 好 的 算法 。 在 人 脸 识 别 早期 它 被 直接 用 于 人 脸 识 别 问 题 中 ,将 在 第 8 章 中 详细 介绍 。 
流 形 学 习 在 高 维 复杂 数据 集 上 得 到 了 更 好 的 表现 ,如 人 脸 图 像 中 和 其 他 图 像 的 分 类 问题 。 
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线性 判别 分 析 


主 成 分 分 析 的 目标 是 向 量 在 低 维 空间 中 的 投影 能 很 好 地 近似 代替 原始 向 量 ,但 这 种 投 
影 对 分 类 不 一 定 合适 。 由 于 是 无 监督 学 习 , 没 有 利用 样本 标签 信息 ,不 同类 型 样本 的 特征 向 
量 在 这 个 空间 中 的 投影 可 能 很 相近 。 本 章 要 介绍 的 线性 判别 分 析 也 是 一 种 子 空间 投影 技 
术 , 但 是 它 的 目的 是 用 来 做 分 类 ,让 投影 后 的 向 量 对 于 分 类 任务 有 很 好 的 区 分 度 。 


8.1 用 投影 进行 分 类 





线性 判别 分 析 (Linear Discriminant Analysis,LDA)O 汪 的 基本 思想 是 通过 线性 投影 来 
最 小 化 同类 样本 间 的 差异 ,最 大 化 不 同类 样本 间 ү 
的 差异 。 具 体 做 法 是 寻找 一 个 向 低 维 空间 的 投影 
矩阵 W, 样 本 的 特征 向 量 x 经 过 投影 之 后 得 到 新 
向 量 : 

y —Wx 

同一 类 样本 投影 后 的 结果 向 量 差异 尽 可 能 
小 ,不 同类 的 样本 差异 尽 可 能 大 。 直 观 来 看 ,就 是 
经 过 投影 之 后 同一 类 样本 尽量 聚集 在 一 起 ,不 同 
类 的 样本 尽 可 能 离 得 远 。 图 8. 1 是 这 种 投影 的 示 
图 8. 1 中 特征 向 量 是 二 维 的 ,我 们 向 一 维 空间 即 直线 投影 ,投影 后 这 些 点 位 于 直线 上 。 
在 图 8. 1 中 有 两 类 样本 ,通过 向 右上 方 的 直线 投影 ,两 类 样本 被 有 效 地 分 开 了 。 绿 色 的 样本 
投影 之 后 位 于 直线 的 下 半 部 分 ,红色 的 样本 投影 之 后 位 于 直线 的 上 半 部 分 。 由 于 是 向 一 维 
空间 投影 ,这 相当 于 用 一 个 向 量 w 和 特征 向 量 x 做 内 积 ,得 到 一 个 标量 : 


у = wx 











图 8.1 最 佳 投影 方向 





8.2 投影 矩阵 


8.2.1 一 维 的 情况 

问题 的 关键 是 如 何 找到 最 佳 投影 矩阵 。 下 面 先 考虑 最 简单 的 情况 ,把 向 量 映射 到 一 维 
空间 。 假 设 及 个 样本 ,它们 的 特征 向 量 为 x;, 属 于 两 个 不 同 的 类 。 属 于 类 C, 的 样本 集 为 
Di, 及 个 样本 ;属于 类 C, 的 样本 集 为 D. ,有 n, 个 样本 。 有 一 个 向 量 w, 所 有 向 量 对 该 向 
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量 做 投影 可 以 得 到 一 个 标量 : 
у = wx 
ВЈ ИРЕТ п Pi. BPS С, 和 C, 相对 应 的 两 个 集合 Y, 和 Y,。 我 们 希望 
投影 后 两 个 类 内 部 的 各 个 样本 差异 最 小 化 ,类 之 间 的 差异 最 大 化 。 类 间 差 异 可 以 用 投影 之 
后 两 类 样本 均值 的 差 来 衡量 。 投 影 之 前 每 类 样本 的 均值 为 
т; 一 EN 


Ni yep, 


投影 后 的 均值 为 


2 1 
ñ, = — wx = w'm; 
Ni yep, 


它 等 价 于 样本 均值 在 w 上 的 投影 。 投 影 后 两 类 样本 均值 差 的 绝对 值 为 
| m, — m, |= | w! (m, —m.) | 
类 内 的 差异 大 小 可 以 用 方差 来 衡量 。 定 义 类 别 C; 的 类 内 散布 为 
# = У) (y— mñ) 


»€Y, 

这 是 一 个 标量 ,与 方差 相差 一 个 倍数 ,衡量 某 一 类 的 所 有 样本 与 该 类 中 心 的 距离 。 
A/M (如 十 器 ) 是 全 体 样本 的 方差 SESS 称 为 总 类 内 散布 。 我 们 要 寻找 的 最 佳 投影 需要 使 
下 面 的 目标 函数 最 大 化 : 
Gi, 一 m; )° 

й +9 
即 让 类 间 的 均值 差 最 大 化 (分 子 ) ,类 内 的 差异 最 小 化 (分 母 )。 为 了 把 这 个 目标 函数 写成 w 
的 函数 ,定义 类 内 散布 矩阵 为 
S, = >)(х—т)(х— т? 


хєр, 


L(w) = 


总 类 内 散布 矩阵 为 
Sw = 8, + 5, 
这 样 有 
z= У) Ge? x жтт)? 
хєр, 
= Sw — т;) (х т) 
хєр, 
= wTSiw 
因此 ,各 类 的 散布 之 和 可 以 写成 
8+ = wISww 
各 类 样本 的 均值 之 差 可 以 写成 


(m, — ñ)? = (w! (m, — m,))? = w! (m, — m,)(m, — m,)™w 











WREX 
Ss = (m, — тг) (m, —m;)" 
则 可 以 写成 


(m, — M)? = w! Ssw 
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Ss 称 为 总 类 间 散 布 矩 阵 ,Sw 称 为 总 类 内 散布 矩阵 。 要 优化 的 目标 函数 为 
WISsw 
w'Syw 
这 个 最 优化 问题 的 解 不 唯一 ,可 以 证 明 , 如 果 w* 是 最 优 解 , 将 它 乘 上 一 个 非 零 系 数 & 之 
Ji kw "还 是 最 优 解 。 因 此 ,可 以 加 上 一 个 约束 条 件 消 掉 宛 余 , 同 时 简化 问题 : 
w'Syw = 1 
这 样 , 上 面 的 最 优化 问题 转化 为 带 等 式 约束 的 极 大 值 问题 : 


max w'Sgw 





L(w) = 


w'Syw = 1 
下 面 用 拉 格 朗 日 乘 数 法 求解 。 构 造 拉 格 朗 日 乘 子 函数 ， 
L = w'Sgw +A(w'Sww — 1) 
对 w 求 梯度 并 令 梯度 为 0, 可 以 得 到 
Saw +ASww = 0 
即 
Syw = ASww 
如 果 Sy 可 逆 , 上 式 两 边 左 乘 Sw! 后 可 以 得 到 
SwSaw = ¿w 
即 JEKE RE Sw’ Se 的 特征 值 ,w 为 对 应 的 特征 向 量 。 

上 面 的 做 法 只 将 样本 向 量 投影 到 一 维 空间 ,并 没有 说 明 在 这 个 空间 中 怎么 分 类 。 如 果 
我 们 得 到 了 投影 后 的 值 ,一 个 方案 是 比较 它 离 所 有 类 的 均值 的 距离 , 取 最 小 的 那个 作为 分 类 
的 结果 : 

arg min; | w! x — ñ, | 

这 类 似 于 kNN 算法 ,不 同 的 是 计算 待 分 类 样本 和 各 类 训练 样本 均值 向 量 的 距离 。 另 

外 ,也 可 以 用 其 他 分 类 器 完成 分 类 。 


8.2.2 推广 到 高 维 
接 下 来 将 上 面 的 方法 推广 到 多 个 类 向 高 维 空间 投影 的 情况 。 对 于 с 类 分 类 问题 ,需要 
把 特征 向 量 投影 到 c 一 1 维 的 空间 中 。 类 内 散布 矩阵 定义 为 
Sw 一 >s, 
它 仍然 是 每 个 类 的 类 内 散布 矩阵 之 和 ,与 单个 类 的 类 内 散布 矩阵 和 之 前 的 定义 相同 ， 
S, = Dx — mi) x т)" 


хєр, 


其 中 ,mi 为 每 个 类 的 均值 向 量 。 定 义 总 体 均值 向 量 为 


定义 总 体 散布 矩阵 为 


Sr = У) (х; — m) (х; — т)" 


і=1 


则 有 
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Sr 20 x m; +m, — m) (x — m; +m, —m)* 


i=1 x€ D, 
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i=1 x€ D; i=l z€ D; 








Sw + T m)(m, = m)" 
把 上 式 右边 的 第 二 项 定义 为 类 间 散 布 矩 阵 ,总 散布 矩阵 是 类 内 散布 矩阵 和 类 间 散 布 矩 


阵 之 和 : 
Ss = S uli = т) (т; = т)" 
Sr = Sy + Ss 
相应 地 从 а 维 空间 向 c — 1 维 空间 投影 变 为 矩阵 和 向 量 的 乘积 : 
y=W"x 
其 中 ,W 是 dX (ec 一 1) 的 矩阵 。 可 以 证 明 , 最 后 的 目标 为 求解 下 面 的 最 优化 问题 : 
tr WT SW) 
maxL(W) = TWS, W) 


其 中 ,tr ЖШ. pu] FER. m pl E НЕЙ] Н p8 ЖЕНГЕ uE BJ (51 H bs РЕ 2 Bz B. W 的 
列 w 必须 满足 
Spw = ASww 

最 优 解 还 是 矩阵 Sw'Ss 的 特征 值 和 特征 向 量 。 实 现时 的 关键 步骤 是 计算 矩阵 Sr Sw 
以 及 矩阵 乘法 Sw'Ss ,对 和 矩阵 Sy Ss 进行 特征 值 分 解 。 和 矩阵 Sy Ss 可 能 有 4d 个 特征 值 和 特 
征 向 量 ,我 们 要 将 向 量 投影 到 c 一 1 维 ,为 此 挑选 出 最 大 的 < 一 1 个 特征 值 以 及 它们 对 应 的 特 
征 向 量 , 组 成 矩阵 殉 。 

虽然 最 后 都 归结 为 求解 矩阵 的 特征 值 问题 , 主 成 分 分 析 和 线性 判别 分 析 有 本 质 的 不 同 。 
前 者 是 无 监督 的 机 器 学 习 方法 ;而 后 者 要 计算 类 内 和 类 问 散 度 矩 阵 , 使 用 了 样本 标签 值 , 是 
有 监督 的 机 器 学 习 方法 。 二 者 优化 的 目标 也 不 同 ,前 者 是 最 小 化 重 构 误 差 ,而 后 者 是 最 大 化 
类 间 差 异同 时 最 小 化 类 内 差异 。 从 变换 函数 可 以 看 出 ,线性 判别 分 析 也 是 一 种 判别 模型 。 


8.3 实验 程序 


下 面 通过 实验 程序 介绍 线性 判别 分 析 的 使 用 ,程序 基于 OpenCV。 在 这 里 对 两 类 样本 
进行 分 类 ,每 类 训练 样本 75 个 ,同样 是 用 正 态 分 布 随机 数 生成 。 

在 生成 训练 样本 数据 之 后 , 先 寻 找 投影 矩阵 ,计算 出 特征 值 和 特征 向 量 。 然 后 计算 每 个 
类 的 均值 向 量 , 以 及 均值 向 量 在 子 空间 的 投影 。 对 于 待 分 类 样本 , 先 计算 其 在 子 空间 的 投 
影 ,然后 比较 投影 后 的 向 量 和 每 类 均值 投影 的 距离 ,将 样本 分 到 距离 最 近 的 那 一 类 。 

程序 源 代 码 如 下 : 





int main(int argc, char * * argv) 
{ 
const int kClassNum =2; // 类 型 数 


const int kWidth =512, kHeight =512; 
Vec3b геа (0, 0, 255), green (0, 255, 0), blue (255, 0, 0); 
Mat image =Mat::zeros (kHeight, kWidth, CV_8UC3); 
// 训练 样本 标签 数组 
int labels[150]; 
for (int i-0; i «75; i++) 
labels[i] =0; 
for (int i =75; i <150; i++) 
labels[i] =1; 
std::vector<int>trainResponse; 
for (int i =0; i <150; i++) 
trainResponse.push back(labels[i]); 
// 训练 样本 特征 向 量 数组 
double trainDataArray [150] [2]; 
RNG rng; 
for (int i =0; i <75; i++) 
{ 
trainDataArray[i] [0] =350 +rng.gaussian (30); 
trainDataArray[i] [1] =350 +rng.gaussian (30); 
} 
for (int i =75; i <150; i++) 
{ 
trainDataArray[i][0] =150 +rng.gaussian(30); 
trainDataArray[i][1] =150 +rng.gaussian (30); 
) 
Mat trainData(150, 2, CV_64FC1, trainDataArray); 
// 计算 LDR 投 影 ,投影 后 为 一 维 的 , 即 kclassNum -1 
LDA lda(trainData, trainResponse, kClassNum -1); 
Mat eigenVector -lda.eigenvectors().clone(); 
vector«Mat» classMean (kClassNum); 
vector< int» classCount (kClassNum); 
// 下 面 的 代码 用 来 计算 量 每 个 类 的 均值 向 量 投影 后 的 值 
for (int i =0; i <kClassNum; i++) 
{ 
classMean[i] =Mat::zeros(1, trainData.cols, СУ_64ЕС1); 
classCount [i] =0; 
} 
Mat sample; 
for (int i =0;i <trainData.rows; i++) 
{ ”// 先 计算 每 类 样本 特征 向 量 的 累加 值 
sample =trainData.row (i); 
if(labels[i]==0) 
t 
add(classMean[0], sample, classMean[0]); 


classCount [0]++; 
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// 获取 特征 向 量 


// 初始 化 类 中 均值 为 0 
// 每 一 类 中 的 样本 数 
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else 


add(classMean[1], sample, classMean[1]); 


classCount[1]++; 


} 
// 然后 除 以 每 类 样本 的 数量 ,得 到 均值 向 量 
for (int i =0; i <kClassNum; i++) 
classMean[i].convertTo (classMean[i], CV_64FC1, 
1.0/static cast«float» (classCount[i])); 
// 两 个 类 投影 后 的 中 心 
Vector<Mat> cluster (kClassNum) ; 
// 计算 两 个 类 投影 后 的 中 心 , 在 这 里 是 一 维 的 
// 类 均值 和 投影 矩阵 相 乘 , 得 到 投影 后 的 类 中 心 , 在 这 里 是 一 维 的 点 
for (int i =0; i<kClassNum; i++) 
cluster [i] =classMean[i] * eigenVector; 
// 对 图 像 内 所 有 点 进行 预测 
for (int i =0; i <image.rows; i++) 
{ 
for (int j =0; j <image.cols; j++) 
t 
Mat sampleMat = (Mat «double» (1, 2) ««j, i); 
Mat projection -Mat::zeros(1,1,CV 64ЕС1); 
// 先 计算 样本 向 量 的 投影 
projection =sampleMat * eigenVector; 
double temp =projection.ptr<double> (0) [0]; 
// 然后 比较 与 哪个 类 的 投影 中 心 更 接近 ,确定 分 类 结果 
int response = (fabs (temp - cluster[0].ptr« double» (0) [0]) < fabs (temp – 
cluster[1].ptr«double» (0) [0])) ?0 : 1; 
if (response ==0) 
image.at<Vec3b> (i, j) =green; 
else 


image .at<Vec3b> (i, j) =blue; 


) 

// 显示 两 类 训练 样本 

for (int i =0; i <trainData.rows; i++) 

{ 
const double * v =trainData.ptr<double> (i); 
Point pt =Point((int)v[0], (int)v[1]); 


if (labels[i] ==0) 
circle (image, pt, 5, Scalar::all(0), -1, 8); 


else 
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circle(image, pt, 5, Scalar::all(255), -1, 8); 
H 
imshow ("LDA classifier demo", image); 
waitKey (0); 
return 0; 


) 
程序 运行 结果 如 图 8. 2 所 示 。 





图 8.2 LDA 的 分 类 结果 


可 以 看 到 分 界线 为 直线 ,这 验证 了 线性 判别 分 析 是 一 个 线性 模型 。 如 果 我 们 画 一 条 与 
分 界线 垂直 的 直线 ,这 条 直线 就 是 最 佳 投影 方向 。 在 这 个 最 佳 方向 上 ,投影 之 后 不 同类 的 样 
本 间隔 很 远 ,而 同类 样本 之 间 的 间隔 很 小 ,这 也 验证 了 线性 判别 分 析 确实 是 同时 最 大 化 类 间 
差异 且 最 小 化 类 内 差异 。 


8.4 源 代 码 分 析 


下 面 分 析 OpenCV 的 线性 判别 分 析 实 现 。 它 实现 了 完整 的 线性 判别 分 析 功 能 ,包括 计 
算 投影 矩阵 .对 向 量 进 行 投 影 . 对 投影 后 的 向 量 进行 重 构 。 


8.4.1 主要 数据 结构 
类 LDA 实现 了 线性 判别 分 析 功 能 ,定义 如 下 : 


class CV_EXPORTS LDA 
{ 
public: 
// ВЕ PRA, num components 为 投影 之 后 的 维 数 
LDA(int num components =0) : num components (num components) {}; 
// 直接 在 构造 函数 中 进行 LDA 投影 ,src 是 样本 特征 向 量 数 组 , labels 是 样本 标签 
// num components 是 投影 之 后 的 维 数 


LDA(const Mat& src, vector<int>labels, int num components =0) : 
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.num components (num components) 
t 
// 真正 的 计算 是 调用 compute 函数 实现 的 
this->compute (src, labels); 
) 
LDA(InputArrayOfArrays src, InputArray labels, int num components =0) : 


.num components (num components) 


this-» compute (src, labels); 
) 
void save (const string& filename) const; 
void load(const string& filename); 
void save(FileStorage& fs) const; 
void load(const FileStorage& node); 
~LDA() {} 
// IDR 计 算 函 数 , 寻 找 投影 矩阵 И 
void compute (InputArrayOfArrays src, InputArray labels); 
// BSG PRL, RY fl AERE src 进行 投影 操作 
Mat project (InputArray src); 
// TEH PRI, AR E ATA. AS BESE Hi Е c ЯС Hi Е 


Mat reconstruct (InputArray src); 


// 返回 特征 向 量 
Mat eigenvectors() const { return eigenvectors; }; 
// 返回 特征 值 
Mat eigenvalues () const { return _eigenvalues; } 
protected: 
bool _dataAsRow; // 样本 是 否 以 行 形式 存放 , 即 每 一 行 是 一 个 样本 的 向 量 
int _num components; // 投影 之 后 的 维 数 
Mat _eigenvectors; // 特征 向 量 , 即 投影 矩阵 
Mat _eigenvalues; // 特征 值 


void lda(InputArrayOfArrays src, InputArray labels); 
le 


8.4.2 计算 投影 矩阵 


函数 lda 实现 计算 投影 矩阵 的 功能 ,处 理 流 程 如 下 。 

(1) 计算 各 个 类 的 均值 向 量 和 总 均值 向 量 。 

(2) 计算 类 间 散 布 矩 阵 Ss 、 类 内 散布 矩阵 Sw 。 

(3) 计算 矩阵 乘法 Sy'Ss. 

COD 对 Sw'Ss 进行 特征 值 分 解 ,得 到 特征 值 和 特征 向 量 。 

(5) 对 特征 值 从 大 到 小 排序 ,截取 部 分 特征 值 和 特征 向 量 构成 投影 矩阵 。 
代码 如 下 : 


void LDA::lda (InputArrayOfArrays src, InputArray _1Ь15) 
t 
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Mat src =_src.getMat (); 
vector< int» labels; 
// 将 输入 数据 复制 
{ 
Mat tmp =_1bls.getMat () ; 
for (unsigned int i =0; i <tmp.total(); i++) { 
labels.push_back(tmp.at<int> (i)); 


} 
} 
Mat data; 
src.convertTo (data, CV_64FC1); // 转化 为 双 精 度 进行 计算 


// 将 类 别 标签 映射 为 [0,1,...,c] 

Vector< int>mapped_labels(labels.size()); 

Vector< int>num2label =remove_dups (labels); 

map<int, int>label2num; 

for (int і =0; і < (int)num2label.size(); i++) 
label2num[num2label[i]] =i; 

for (size t i =0; i <labels.size(); i++) 
mapped labels[i] -label2num[labels[i]]; 


int N -data.rows; // 样本 数 
int D=data.cols; // 向 量 维 数 
int С = (int)num2label.size(); // 类 别 数 
// 如 果 只 有 一 个 类 ,是 不 能 做 LDA 的 

if (C ==1) { 


string error message ="At least two classes are needed to perform a LDA. 
Reason: 
Only one class was given!"; 
CV Error(CV StsBadArg, error message); 
) 
if (labels.size() !-static cast«size t» (N)) { 
string error message - format ("The number of samples must equal the number of 
labels. Given $d labels, $d samples. ", labels.size(), М); 
CV Error(CV StsBadArg, error message); 
) 
// 如 果 样 本 数 少 于 向 量 维 数 ,类 内 散 度 矩阵 奇异 
if (N <D) { 
cout < < "Warning: Less observations than feature dimension given!" 


««"Computation will probably fail." 


<<end1; 
} 
if (( num components <=0) || ( num components > (C -1))) { 
num components = (C -1); 
} 


// meanTotal 为 总 均值 向 量 
Mat meanTotal =Mat::zeros(1, D, data.type()); 
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// meanClass 为 各 个 类 的 均值 向 量 ,numclass 为 各 个 类 的 样本 数 
Vector<Mat>meanClass (C); 
Vector< int» numClass (С); 
// 初始 化 
for (int i =0; i <C; i++) { 
numClass[i] =0; 
meanClass[i] =Mat::zeros(1, D, data.type()); 
) 
// 计算 总 和 
for (int i =0; i <N; i++) { 
Mat instance =data.row(i); 
int classIdx =mapped labels[i]; 
add (meanTotal, instance, meanTotal); // 总 均值 
add (meanClass[classIdx], instance, meanClass[classIdx]); // 类 均值 
numClass[classIdx]++; 
) 
// 计算 总 均值 向 量 
meanTotal.convertTo (meanTotal, meanTotal.type(), 1.0 / static_cast<double> (N)); 
// 计算 类 均值 向 量 
for (int i =0; i <C; i++) { 
meanClass [i] .convertTo (meanClass[i], meanClass[i].type(), 1.0 / 
static_cast<double> (numClass[i])); 
} 
// 所 有 样本 减 去 类 均值 
for (int i =0; i <N; i++) { 
int classIdx =mapped_labels [i]; 
Mat instance =data.row(i); 
subtract (instance, meanClass[classIdx], instance); 
} 
// 计算 类 内 散布 矩阵 
Mat Sw =Mat::zeros(D, D, data.type()); 
mulTransposed (data, Sw, true); 
// 计算 各 个 类 的 类 间 散 布 矩 阵 
Mat Sb =Mat::zeros(D, D, data.type()); 
for (int i=0; i <C; i++) { 
Mat tmp; 
subtract (meanClass[i], meanTotal, tmp); 
mulTransposed (tmp, tmp, true); 
add(Sb, tmp, Sb); 


} 

Mat Swi =Sw.inv(); // 计算 s. 的 道 矩阵 

Mat M7 

gemm (Swi, Sb, 1.0, Mat (), 0.0, M); // 计算 矩阵 乘法 M= 55 S, 
// 对 矩阵 W 进 行 特征 值 分 解 


EigenvalueDecomposition es (М); 
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_eigenvalues -es.eigenvalues(); // 特征 值 
_eigenvectors =es.eigenvectors () ; // 特征 向 量 
_eigenvalues =_eigenvalues.reshape (1, 1); 

// 按照 特征 值 降序 排序 

Vector< int> sorted indices =argsort (_eigenvalues, false); 

// 最 后 得 到 投影 矩阵 

_eigenvalues -sortMatrixColumnsByIndices ( eigenvalues, sorted indices); 
_eigenvectors -sortMatrixColumnsByIndices ( eigenvectors, sorted indices); 
// 对 特征 值 和 特征 向 量 进行 截取 ,只 保留 _num_components 个 

_eigenvalues -Mat( eigenvalues, Range::all(), Range (0, num components)); 
_eigenvectors -Mat( eigenvectors, Range::all(), Range(0, num components)); 


} 
算法 关键 的 一 步 是 利用 EigenvalueDecomposition 类 完成 矩阵 的 特征 值 分 解 。 


8.4.3 向 量 投影 
函数 subspaceProject 实现 向 子 空间 的 投影 操作 。 代 码 如 下 : 


Mat subspaceProject(InputArray И, InputArray mean, InputArray src) { 
Mat М = W.getMat(); 
Mat mean - mean.getMat (); 
Mat src = src.getMat(); 
int n -src.rows; // 向 量 个 数 ,这 里 假设 w fpe] Je f (1 6 6 nn 
int d -src.cols; // 维 数 
if (W.rows !=d) { 
string error_message =format ("Wrong shapes for given matrices. Was size(src) = 
($d,$d), size(W) =(%d,%d).", src.rows, src.cols, W.rows, W.cols); 
CV Error(CV StsBadArg, error message); 
) 
if (!mean.empty() && (mean.total() != (size t) d)) ( 
string error message - format ("Wrong mean shape for the given data matrix. 
Expected $d, but was $d.", d, mean.total()); 
CV Error(CV StsBadArg, error message); 
) 
Mat X, Y; 
src.convertTo (X, W.type()); 
if(!mean.empty()) { // 先 把 所 有 的 x 减 去 均值 m 
for (int i=0; i<n; i++) { 
Mat r_i =X.row(i); 


subtract(r i, mean.reshape(1,1), г i); 


) 
// 计算 (х- m) WW 前面 介绍 的 公式 是 Wx, 因 为 x 是 按 行 存储 的 ,需要 转 置 
gemm (X, W, 1.0, Mat(), 0.0, Y); 


return Y; 
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844 向 量 重 构 
函数 subspaceReconstruct 完成 向 量 重 构 。 代 码 如 下 : 


Mat subspaceReconstruct (InputArray W, InputArray mean, InputArray src) 
t 

Mat W = W.getMat(); 

Mat mean = mean.getMat () 7 

Mat src =_src.getMat (); 

int n -src.rows; // 样本 数 

int d =src.cols; // 特征 向 量 维 数 

if (W.cols !=d) { 
string error_message =format ("Wrong shapes for given matrices. Was size(src) = 
($d,$d), size(W) =(%d,%d).", src.rows, src.cols, W.rows, W.cols); 
CV Error(CV StsBadArg, error message); 

) 

if(!mean.empty() && (mean.total() != (size t) W.rows)) { 
string error message - format ("Wrong mean shape for the given eigenvector 
matrix. Expected $d, but was $d.", W.cols, mean.total()); 
CV Error(CV StsBadArg, error message); 

) 

Mat X, Y; 

src.convertTo (Y, W.type()); 

gemm(Y, W, 1.0, Mat(), 0.0, X, GEMM 2 Т); // Fe EAR РЕН НЕ, yw 

if (!mean.empty()) { // 加 上 均值 向 量 
for (int i=0; i<n; i++) { 

Mat r i -X.row(i); 


ааа (г i, mean.reshape (1,1), r_i); 


) 


return X; 


8.5 应 用 


线性 判别 分 析 被 应 用 于 模式 识别 中 的 各 类 问题 ,包括 图 像 分 类 、 人 脸 识别 以 及 其 他 数据 
的 分 析 。 下 面 我 们 介绍 在 人 脸 识别 中 的 应 用 。 

子 空间 方法 是 人 脸 识 别 研究 早期 非常 重要 的 一 类 方法 , 它 将 人 脸 图 像 作 为 一 个 向 量 投 
影 到 低 维 的 子 空间 中 然后 进行 分 类 。 使 用 主 成 分 分 析 的 特征 脸 (Eigenfaces) 和 使 用 线性 判 
别 分 析 的 Fisherfaces 是 这 类 方法 的 典型 代表 5 。 

使 用 主 成 分 分 析 的 人 脸 识别 算 法 把 人 脸 图 像 看 作 一 个 向 量 , 即 将 图 像 按 行 或 者 按 列 拼 
接 起 来 。 对 人 脸 图 像 形成 的 向 量 进行 主 成 分 分 解 , 得 到 投影 矩阵 ,然后 将 训练 样本 向 量 投影 
到 低 维 空间 。 在 识别 时 , 先 对 待 识别 图 像 进行 主 成 分 投影 ,然后 在 低 维 空间 中 计算 待 识别 人 
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脸 图 像 与 训练 样本 图 像 的 距离 ,将 其 分 到 距离 最 近 的 那 一 类 , 即 kNN 算法 。 投 影 矩 阵 的 每 
一 行 所 代表 的 图 像 称 为 特征 脸 图 像 , 如 图 8. З 所 示 。 











图 8.3 特征 脸 图 像 


使 用 线性 判别 分 析 的 人 脸 识别 也 是 将 人 脸 图 像 看 作 向 量 , 然 后 对 所 有 训练 样本 图 像 计 
算 线性 判别 分 析 的 投影 矩阵 ,并 将 这 些 样 本 投影 到 子 空间 。 接 下 来 ,在 识别 时 将 待 识别 图 像 
也 投影 到 LDA 子 空间 ,然后 计算 投影 后 的 向 量 与 训练 样本 投影 向 量 的 距离 ,将 其 分 到 距离 
最 近 的 那个 类 中 。 我 们 只 要 将 图 像 转 换 成 向 量 ,就 可 以 直接 使 用 前 面 的 实验 程序 进行 两 个 
人 的 人 脸 识 别 ,通过 修改 LDA 投影 空间 的 维 数 ,很 容易 推广 到 多 个 人 的 识别 。 

在 用 线性 判别 分 析 进 行人 脸 识 别 时 ,如 果 类 内 散布 矩阵 不 可 道 ,这 种 方法 将 失效 。 有 大 
量 的 文章 研究 此 问题 的 解决 方法 ,其 中 经 典 的 做 法 是 先 对 人 脸 图 像 进 行 主 成 分 分 析 降 维 , 然 
后 再 应 用 线性 判别 分 析 进 行 处 理 。 
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人 工 神 经 网 络 


人 的 大 脑 由 大 约 800 亿 个 神经 元 组 成 ,每 个 神经 元 通过 突 触 与 其 他 神经 元 相连 接 ,接收 
这 些 神 经 元 传 来 的 电信 号 和 化 学 信号 ,对 信号 汇总 处 理 之 后 输出 到 其 他 神经 元 。 大 脑 通过 
神经 元 之 间 的 协作 来 完成 它 的 功能 ,神经 元 之 间 的 连接 关系 是 在 进化 过 程 中 以 及 生长 发 育 、 
长 期 的 学 习 、 对 外 界 环境 的 刺激 反馈 中 建立 起 来 的 。 

人 工 神经 网 络 0' 习 是 对 这 种 机 制 的 简单 模拟 。 它 由 多 个 相互 连接 的 神经 元 构成 ,这 些 
神经 元 从 其 他 相连 的 神经 元 接收 输入 数据 ,通过 计算 产生 输出 数据 ,这 些 输出 数据 可 能 会 送 
人 其 他 神经 元 继续 处 理 。 

人 工 神经 网 络 应 用 广泛 。 除 了 用 于 模式 识别 之 外 , 它 还 可 以 用 于 求解 函数 的 极 值 、 自 动 
控制 等 问题 。 到 目前 为 止 有 多 种 不 同 结构 的 神经 网 络 , 典 型 的 有 多 层 前 馈 型 神经 网 络 ( 可 称 
为 全 连接 神经 网 络 ) 、 卷 积 神经 网 络 .循环 神经 网 络 .Hopfield 网 络 等 。 

本 章 介 绍 最 简单 的 前 馈 型 神经 网 络 , 也 称 为 多 层 感 知 器 (Multi-Layer Perceptron. 
MLP) 模 型 或 全 连接 神经 网 络 , 其 他 类 型 的 神经 网 络 会 在 后 面 的 各 章 中 介绍 。 前 馈 型 神经 
网 络 具 有 分 层 结 构 , 每 一 层 的 神经 元 从 上 一 层 神经 元 接收 数据 ,经 过 计算 之 后 产生 输出 数 
据 , 送 入 下 一 层 神 经 元 继续 处 理 , 最 后 一 层 神经 元 的 输出 是 神经 网 络 最 终 的 输出 值 。 


9.1 多 层 前 馈 型 神经 网 络 


本 节 将 介绍 神经 元 ,神经 元 层 的 工作 机 理 . 以 及 前 馈 型 神经 网 络 的 结构 和 正 向 传播 算法 
的 原理 。 





9.1.1 神经 元 

大 脑 的 神经 元 通过 突 触 与 其 他 神经 元 相连 接 , 接 收 来 自 其 他 神经 元 的 信号 ,经 过 汇总 处 
理 之 后 产生 输出 。 在 人 工 神经 网 络 中 ,神经 元 的 作用 与 
此 类 似 。 图 9. 1 是 一 个 神经 元 的 示意 图 , 左 侧 为 输入 数 

ý 5 据 , 右 侧 为 输出 数据 。 
d Жин» ) 这 个 神经 元 接收 的 输入 信号 为 向 量 (z ,za oats en 
” n ,向 量 (wl ,rws ,wws ,wi ,vws) 为 输入 向 量 的 组 合 权 重 ， 
5 为 偏 置 项 ,是 一 个 标量 。 神 经 元 的 作用 是 对 输入 向 量 
进行 加 权 求 和 ,并 加 上 偏 置 项 ,最 后 经 过 激活 函数 变换 

^ b 产生 输出 : 


9.1 一 个 神经 元 的 示意 图 
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y= f ( Уча, +b) 


为 表述 简洁 ,把 上 面 的 公式 写成 向 量 和 和 矩阵 形式 。 对 于 每 个 神经 元 ,假设 它 接收 的 上 一 

层 节 点 的 输入 为 向 量 x, 本 节点 的 权重 向 量 为 w, 偏 置 项 为 0, 该 神经 元 的 输出 值 为 
COwrx 十 0) 

即 先 计算 输入 向 量 与 权重 向 量 的 内 积 , 加 上 偏 置 项 ,再 送 入 一 个 函数 进行 变换 ,最 后 得 到 输 
出 。 这 个 函数 称 为 激活 函数 ,一 种 典型 的 激活 函数 是 sigmoid 函数 。 为 什么 需要 激活 函数 
以 及 什么 样 的 函数 可 以 充当 激活 函数 ,后 面 会 给 出 解释 。sigmoid 函数 定义 为 
ee oes 

这 个 函数 也 被 用 于 logistic 回归 ,会 在 第 11 章 介 绍 。 该 函数 的 值 域 为 (0,1), 是 一 个 单 
调 增 函数 。sigmoid 函数 的 导数 为 

o (z) = olx) —oCr)) 

按照 这 个 公式 ,根据 函数 值 可 以 很 方便 地 计算 出 导数 值 , 在 反 向 传播 算法 中 会 看 到 这 种 

特性 带 来 的 好 处 。sigmoid 函数 的 图 像 如 图 9. 2 所 示 。 
1 


a(x) = 


0.9 
0.8 
0.7 
0.6 
0.5 
0.4 
0.3 
0.2 


0.1 


0 
-6 4 2 0 2 4 6 
图 9.2 sigmoid 函数 的 图 像 


在 0 点 处 ,该 函数 的 导数 有 最 大 值 0.25, 远 离 0 点 处 的 导数 值 逐 渐 减少 ,函数 的 图 像 是 
一 个 S 形 曲线 。 


9.1.2 网 络 结构 


用 于 分 类 问题 时 ,神经 网 络 一 般 有 多 个 层 。 第 一 层 为 输入 层 , 对 应 输入 向 量 , 神 经 元 的 
数量 等 于 特征 向 量 的 维 数 , 这 个 层 不 对 数据 进行 处 理 , 只 是 将 输入 向 量 送 入 下 一 层 中 进行 计 
算 。 中 间 为 隐 含 层 . 可 能 有 多 个 。 最 后 是 输出 层 ,神经 元 的 数量 等 于 要 分 类 的 类 别 数 , 输 出 
层 的 输出 值 被 用 来 做 分 类 预测 。 

下 面 来 看 一 个 简单 神经 网 络 的 例子 ,如 图 9.3 所 示 。 
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这 个 神经 网 络 有 3 层 。 第 一 层 是 输入 层 , 对 应 的 输入 向 量 为 x, 有 3 个 神经 元 ,写成 分 
BOB NOM Cri ,zs олз) ,它们 不 对 数据 做 任何 处 理 ， 
直接 原样 送 入 下 一 层 。 中 间 层 有 4 个 神经 元 , 接 
收 的 输入 数据 为 向 量 x, 输 出 向 量 为 y, 写 成 分 量 
形式 为 (yw ,ys，ys，ys)。 第 三 个 层 为 输出 层 , 接 收 
的 输入 数据 为 向 量 y, 输 出 向 量 为 <, 写成 分 量 形 
式 为 (z1, zs)。 第 一 层 到 第 二 层 的 权重 和 矩阵 为 
W ,第 二 层 到 第 三 层 的 权重 矩阵 为 W”。 权 重 
和 矩阵 的 每 一 行为 一 个 权重 向 量 ,是 上 一 层 所 有 神 
经 元 到 本 层 某 一 个 神经 元 的 连接 权重 ,这 里 的 上 


图 9.3 一 个 简单 的 神经 网 络 


标 表示 层 数 。 
如 果 激 活 函 数 选用 sigmoid 函数 , 则 第 二 层 神 经 元 的 输出 值 为 
l 
Y = T exp С Goff z, + Ух, + wil zs +OP) 
1 
1 + exp (— Gef? zí + wi x; + wa т, + 0$? )) 
1 
1 + exp (— (wi xi + w$? x; + wal т, HOP )) 
1 
y+ why z H wi ту HOP )) 














Уг 








Уз 








э D 


1 + exp (— (wii 
第 三 层 神经 元 的 输出 值 为 
1 DF exp C Get) y, тыру + wie ys + wi? ya HOP )) 
“IF exp (— (wi? y, + P. + wi ys + wi? у, +O )) 
如 果 把 y; 代入 上 面 二 式 中 ,可 以 将 输出 向 量 z 表示 成 输出 向 量 x 的 函数 。 通 过 调整 权 
重 和 矩阵 和 偏 置 项 可 以 实现 不 同 的 函数 映射 , 即 从 输入 向 量 到 输出 向 量 的 映射 ,因此 ,神经 网 
络 就 是 一 个 复合 函数 。 
神经 网 络 通过 激活 函数 而 具有 非 线 性 ,通过 调整 权重 形成 不 同 的 映射 函数 。 现 实 应 用 
中 要 拟 合 的 函数 一 般 是 非 线 性 的 ,线性 函数 无 论 怎样 复合 最 终 都 是 线性 函数 ,因此 ,必须 使 
用 非 线性 激活 函数 。 
还 没有 解决 的 一 个 核心 问题 是 一 旦 神经 网 络 的 结构 ( 即 神经 元 层 数 、 每 层 神经 元 数量 ) 
确定 之 后 ,怎样 得 到 权重 矩阵 和 偏 置 项 。 这 些 参数 是 通过 训练 得 到 的 ,在 9. 2 节 中 会 详细 
介绍 。 


9.1.3 正 向 传播 算法 


下 面 把 这 个 简单 的 例子 推广 到 更 一 般 的 情况 。 假 设 神经 网 络 的 输入 是 n 维 向 量 x, 输 
出 是 m 维 向 量 y, 它 实现 了 如 下 向 量 到 向 量 的 映射 : 
R"— R" 








Z2 


把 这 个 函数 记 为 


= 
жож 人 工 神经 网 络 14 
у = Һ(х) 


用 于 分 类 问题 时 ,比较 输出 向 量 中 每 个 分 量 的 大 小 , 求 其 最 大 值 , 最 大 值 对 应 的 分 量 下 
标 即 为 分 类 的 结果 。 用 于 回归 问题 时 ,直接 将 输出 向 量 作为 回归 值 。 
神经 网 络 第 Г 层 的 变换 写成 矩阵 和 向 量 形式 为 
u” = Ww? xe + bo 
x? = fu”) 
Hp x7? 为 前 一 层 (第 /一 1 层 ) 的 输出 向 量 ,也 是 本 层 接 收 的 输入 向 量 ;W” 为 本 层 神 经 元 
和 上 一 层 神经 元 的 连接 权重 矩阵 ,是 一 个 s,Xs,-1 的 矩阵 ,其 中 ,s 为 本 层 神经 元 数量 ,s,-1 为 
前 一 层 神 经 元 数量 ,W"” 的 每 个 行为 本 层 一 个 神经 元 与 上 一 层 所 有 神经 元 的 权重 向 量 ;b” 
为 本 层 的 偏 置 向 量 , 是 一 个 s, 维 的 列 向 量 。 激 活 函 数 分 别 作 用 于 输入 向 量 的 每 一 个 分 量 ， 
产生 一 个 向 量 输出 。 
在 计算 网 络 输出 值 的 时 候 , 从 输入 层 开始 ,对 于 每 一 层 都 用 上 面 的 两 个 公式 进行 计算 ， 
最 后 得 到 神经 网 络 的 输出 ,这 个 过 程 称 为 正 向 传播 ,用 于 神经 网 络 的 预测 阶段 ,以 及 训练 时 
的 正 向 传播 阶段 。 
可 以 将 前 面 例 子 中 的 З 层 神 经 网 络 实现 的 映射 写成 如 下 完整 形式 ， 
z= f(W° f(W? x 4- pO ) 4- p? ) 
从 上 式 可 以 看 出 ,这 个 神经 网 络 是 一 个 2 层 复合 函数 。 如 果 令 
у = AWP x + pO ) 
上 式 可 以 写成 
у = Рх + p? ) 
z= (WP y +b) 
下 面 给 出 正 向 传播 算法 的 流程 。 假 设 神 经 网 络 有 m 层 . 第 一 层 为 输入 层 ,输入 向 量 为 
x, 第 ! 层 的 权重 矩阵 为 WO vds EIS] tg b? 。 正 向 传播 算法 的 流程 为 
KE x? =x 
循环 1—2.3. m] — E 
计算 u” үу х“) +p” 
HH x? = flu”) 
结束 循环 
输出 向 量 x0" ,作为 神经 网 络 的 预测 值 


9.2 反 向 传播 算法 

本 节 介 绍 神经 网 络 的 训练 算法 一 一 反 向 传播 算法 。 首 先 推导 前 面 例子 中 3 层 神经 网 络 
的 训练 算法 , 接 下 来 把 它 推广 到 更 一 般 的 情况 .得 到 通用 的 反 向 传播 算法 。 
9.2.1 一 个 简单 的 例子 


首先 以 前 面 的 3 层 神经 网 络 为 例 ,推导 损失 函数 对 神经 网 络 所 有 参数 梯度 的 计算 方法 。 
假设 训练 样本 集中 有 m 个 样本 (x;,z;)。 现 在 要 确定 神经 网 络 的 映射 函数 : 


w 
142; 机 器 学 习 与 应 用 
z = h(x) 


什么 样 的 函数 能 很 好 地 解释 这 批 训练 样本 ? 答案 是 神经 网 络 的 预测 输出 要 尽 可 能 地 接 
近 样 本 的 标签 值 , 即 在 训练 集 上 最 小 化 预测 误差 。 如 果 使 用 均 方 误 差 , 则 优化 的 目标 为 


= Шу PEN. 
L= y Nh) zi 


其 中 ,h(x) 和 zx; 都 是 向 量 。 上 面 的 误差 也 称 为 欧 氏 距离 损失 函数 , 除 此 之 外 还 可 以 使 用 其 
他 损失 函数 ,如 交叉 炉 、 对 比 损失 等 ,这 些 损失 函数 在 第 15 章 中 介绍 。 

优化 目标 函数 的 自 变量 是 各 层 的 权重 矩阵 W” 和 梯度 向 量 Р? ,一 般 情况 下 无 法 保证 目 
标 函 数 是 凸 函数 ,因此 ,这 不 是 一 个 凸 优 化 问题 ,有 陷入 局 部 极 小 值 的 风险 ,这 是 神经 网 络 之 
前 一 直 被 诉 病 的 一 个 问题 。 可 以 使 用 梯度 下 降 法 进行 求解 ,对 于 非 凸 优化 问题 梯度 下 降 法 
只 能 保证 收敛 到 局 部 最 小 值 点 。 使 用 梯度 下 降 法 需要 计算 出 损失 函数 对 所 有 权重 矩阵 、 偏 
咎 向 量 的 梯度 值 , 接 下 来 的 关键 是 这 些 梯 度 值 的 计算 。 在 这 里 我 们 先 将 问题 简化 ,只 考虑 对 
单个 样本 的 损失 函数 : 


L- LAG 41" 


后 面 如 果 不 加 说 明 ,都 使 用 这 种 单 样本 的 损失 函数 。 如 果 计算 出 了 对 单个 样本 损失 函 
数 的 梯度 值 ,对 这 些 梯度 值 计 算 均 值 就 可 以 得 到 整个 目标 函数 的 梯度 值 。 

由 于 WW 和 4b” 要 被 代入 到 网 络 的 后 一 层 中 ,是 复合 函数 的 内 层 变 量 , 先 考虑 外 层 的 
W° n b'”。 权 重 和 矩阵 W'” 是 一 个 2X4 的 矩阵 , 它 的 两 个 行 分 别 为 向 量 wi? 和 wi? Lp? JE 
二 维 的 列 向 量 , 它 的 两 个 元 素 为 ”和 03”。 网 络 的 输入 是 向 量 x, 第 一 层 映 射 之 后 的 

输出 是 向 量 y。 
首先 计算 损失 函数 对 权重 矩阵 每 个 元 素 的 偏 导数 ,将 欧 氏 距 离 损失 函数 展开 ,有 


证 aL foo? y HOP) — z)? + Cf Ww y +6) —,)?) 


дш? 

如 果 ;一 1, 即 对 权重 矩阵 第 一 行 的 元 素 求 导 , 上 式 分 子 中 的 后 半 部 分 对 rw 来 说 是 常 
数 。 根 据 链 式 法 则 有 

aL 


Jum Cf Cif? y +O)? ) — zio f QU? y +O D 
Jwg 





Iw? 


Iw? y + b?) 
per 2) 





4 


a( >) wif y, +62) 


= Qf? y E M9) — a1) fo? y +? ) Et 
7 








= (fw y £6) — z f WP y E D) y; 
如 果 ;一 2. 即 对 矩阵 第 二 行 的 元 素 求 导 ,类似 地 有 
aL 


Iw? 


这 可 以 统一 写成 





EWP y HOP) — x2) f QU? y + bP ) y; 





a " 
—— FW? y £62) — z) f Qf? y ББ) у; 


可 以 发 现 ,第 一 个 下 标 i Е TY i 行 和 偏 置 向 量 的 第 i 个 分 量 ,第 二 个 下 
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标 j 决定 了 向 量 y 的 第 7 个 分 量 。 这 可 以 看 成 是 一 个 列 向 量 与 一 个 行 向 量 相 乘 的 结果 , 写 
成 矩阵 形式 为 
Vwd L = (FWP y+ b?) — z) O f (W°? y +b )ут 
上 式 中 乘法 加 为 向 量 对 应 元 素 相 乘 58 — A Aer e E EAE. [OV yb ) 一 < 是 一 
个 二 维 列 向 量 , 广 (2 y dc? ) 也 是 一 个 二 维 列 向 量 , 两 个 向 量 执行 加 运算 的 结果 还 是 一 个 
二 维 列 向 量 。y 是 一 个 4 元 素 的 列 向 量 , 其 转 置 为 四 维 行 向 量 , 前 面 这 个 二 维 列 向 量 与 ут 
的 乘积 为 2X4 的 矩阵 ,这 正好 与 矩阵 W* 的 尺寸 相等 。 在 上 面 的 公式 中 ,权重 的 偏 导数 在 
求 和 项 中 由 3 部 分 组 成 ,分 别 是 网 络 输出 值 与 真实 标签 值 的 误差 POW уч?) 一 z、 激 活 函 
数 的 导数 (Wy 十 5 )、 本 层 的 输入 值 y。 神 经 网 络 的 输出 值 、 激 活 函 数 的 导数 值 本 层 
的 输入 值 都 可 以 在 正 向 传播 时 得 到 ,因此 可 以 高 效 地 计算 出 来 。 对 所 有 训练 样本 的 偏 导数 
计算 均值 ,可 以 得 到 总 的 偏 导数 。 
偏 置 项 的 偏 导 数 为 
ICC LOM? y + b?) = 21)? + fw? y HoP) — 22)*) 
дь? 
如 果 ;一 1, 上 式 分 子 中 的 后 半 部 分 对 b 来 说 是 常数 ,有 


aL 
mP 





Ilw? 2 +b) 








Cf On? y +O ) — 21) f CW y +O ) 





= (f (wi? y + bf? ) — z) f Cw y +O ) 

如 果 i= 2,28 WAT 
aL 
дь? 


这 可 以 统一 写成 





= (fw? y +62 ) — z) f (WwW y +b) 


aL 
Ib 
写成 矩阵 形式 为 
Уо = (f(W? y +b) — 2) Of (WP y +o?) 

偏 置 项 的 导数 由 两 部 分 组 成 ,分 别 是 神经 网 络 预 测 值 与 真实 值 之 间 的 误差 ,激活 函数 的 
导数 值 , 与 权重 矩阵 的 偏 导数 相 比 唯一 的 区 别 是 少 了 六。 

接 下 来 计算 对 W 和 12 的 偏 导 数 , 由 于 是 复合 函数 的 内 层 , 情 况 更 为 复杂 。W "是 一 
个 4X3 的 矩阵 , 它 的 4 个 行 向 量 为 wi) wi wi? ws? 。 偏 置 项 bp 中 是 四 维 向 量 ,4 个 分 量 分 
别 是 OY? b OS? OP. Тї HPE K PBT W? 的 元 素 的 偏 导数 : 
adn Ww y +b?) — д) + CF CW? y +O ) —,)*#) 


Iw 





= (fw y +6?) — z) f Wy +b ) 


д1, 


Iwi? 








而 
у = /бУ??х-+ЕЬ°?) 
上 式 分 子 中 的 两 部 分 都 有 y, 因 此 都 与 W? 有 关 。 为 了 表述 简洁 , 令 
u? = W° y +b? 
根据 链 式 法 则 有 


9 9 9 
Sup = CF Gf?) — =) fu) ads + PUP) — a) f Cu P) D 











ЕЕЕ 


其 中 ,了 fC) 一 zi LP GP fCuf? ) — 2; Af Cut? ) AB FE BE. и y Fw? y 是 两 个 向 量 


的 内 积 ,y 的 每 一 个 分 量 都 是 多 的 函数 。 接 下 来 HARTE m 


‹2› 








ди? y =w? ду 
a) OD 
Dwg Эш 


这 里 的 元 号 是 一 个 向 量 ,表示 y AIRED Ar BEA MT wp ORS. i=l 时 有 


[22] 


Iwy 











f CWP x + bY Da; 

















дуг 
эу Iw Е 0 
дш? дуз 0 
ду? 0 
ду, 
Ju? 
后 面 3 个 分 量 相 对 于 求 导 变量 ww 多 都 是 常数 。 类 似 地 , 当 ;i 一 2 时 有 
ay 
Iw 
Iy 0 
ду д? /'Ой?х-+Ь?)лт, 
дш? EE дуз E 0 
Iw? б 
ду, 
Jw 
i—3 和 ;4 时 的 结果 以 此 类 推 。 综合 起 来 有 
9 , 
ads! = wP f OPa +O Dy 
同 理 有 
dw? 
m = wf? f' (wx +6 da, 
MRS 
DL W° x pO 
合并 得 到 
д1, aw? у 








ow; 
soars (GP) — a) fl) S " PE Cf(if?) — 2) f UP) ex. 
E 


dw; 
= (faf? )—2)f' к. UP Jrj + Cf Cuf? ) — 22) f' Cif? JWP f' UP Dax; 
= [uf WP] UFU?) OF UPOFU?) 
写成 矩阵 形式 为 
Vy» L = (W)C fu?) — 2) f' UNOF uT)! 
Tice VETE St i BJ fW S 38; 


9 
эму = (FUP) а) а) WOLA fu) s) fu P) “ee 
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类 似 地 ,可 得 到 
= wf? f (Их +b) 


合并 后 得 到 
д1. 
HO 


aw,” y 
3b @ 


Iw? y 
дь? 











= (fu?) — z0 f Gf?) +) — а) f Cif) 


= (fGif? ) — zi) f Cu? yu? f Qf? ) + CF Cu? ) — z Р Cf? уа? f' Cu? ) 
= [wh w£?]GfQ'?) —DOf aU OF (QO)) 
写成 矩阵 形式 为 
VoL = (QW? )T (CCf(u? ) —z)@ f' qu? ) O f' (ut) )) 
至 此 ,得 到 了 这 个 简单 网 络 对 所 有 参数 的 偏 导数 , 接 下 来 将 这 种 做 法 推广 到 更 一 般 的 情 
况 。 从 上 面 的 结果 可 以 看 出 一 个 规律 ,输出 层 的 权重 矩阵 和 偏 置 向 量 梯度 计算 公式 中 共用 
了 (flu) 一 z)f (wu?)。 对 于 隐 含 层 也 有 类 似 的 结果 。 


9.22 完整 的 算法 


现在 考虑 一 般 的 情况 , 即 反 向 传播 算法 , 它 由 Rumelhart 等 人 在 1986 4EJE 0? 。 假 设 
H m 个 训练 样本 (x;,y;) ,x; 为 输入 向 量 ,y; 为 标签 向 量 。 训 练 的 目标 是 最 小 化 样本 标签 值 
与 神经 网 络 预 测 值 之 间 的 误差 ,如果 使 用 均 方 误差 , 则 优化 的 目标 为 


LW) = EÑ Пао 一 I? 


其 中 ,W 为 神经 网 络 所 有 参数 的 集合 ， 包括 各 层 层 的 权重 和 偏 置 。 这 个 最 优化 问题 是 一 
带 约 束 条 件 的 问题 ,可 以 用 梯度 下 降 法 求解 。 

上 面 的 误差 函数 定义 在 整个 训练 样本 集 上 .梯度 下 降 法 每 一 次 迭代 利用 了 所 有 训练 样 
本 , 称 为 批量 梯度 下 降 法 。 如 果 样 本 数量 很 大 ,每 次 迭代 都 用 所 有 样本 进 计算 成 本 太 高 。 为 
了 解决 这 个 问题 ,可 以 采用 单 样本 梯度 下 降 法 ,将 上 面 的 损失 函数 写成 对 单个 样本 的 损失 函 
数 之 和 : 


一 了 总 (二 ae lh 
LW) = 133 lx — у; [| ) 
定义 对 单个 样本 (x;,y;) 的 损失 函数 为 
Li = LOW xy) = + AGO — y, IE 


如 果 采 用 单个 样本 进行 迭代 .梯度 下 降 法 第 :十 1 次 迭代 时 参数 的 更 新 公式 为 
Wen = W, — V wL,(W,) 

如 果 要 用 所 有 样本 进行 迭代 ,根据 单个 样本 的 损失 函数 梯度 计算 总 损失 梯度 即 可 , 即 所 
有 样本 梯度 的 均值 。 

用 梯度 下 降 法 求解 需要 初始 化 优化 变量 的 值 。 一般 初始 化 为 一 个 随机 数 , 如 用 正 态 分 
布 N(0,0) 产 生 这 些 随机 数 , 其 中 ,o 是 一 个 很 小 的 正 数 。 还 有 更 复杂 的 初始 化 方法 ,在 后 
面 会 详细 介绍 。 

到 目前 为 止 还 有 一 个 关键 问题 没有 解决 : 目标 函数 是 一 个 多 层 的 复合 函数 ,因为 神经 
网 络 中 每 一 层 都 有 权重 和 矩阵 和 偏 置 向 量 , 且 每 一 层 的 输出 将 会 作为 下 一 层 的 输入 。 因 此 , 直 
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接 计 算 损失 函数 对 所 有 权重 和 偏 置 的 梯度 很 复杂 ,需要 使 用 复合 函数 的 求 导 公式 进行 递 推 
计算 。 
在 进行 推导 之 前 ,首先 来 看 下 面 几 种 复合 函数 的 求 导 。 有 如 下 线性 映射 函数 : 
y = Wx 
其 中 ,x 是 n 维 向 量 ,W 是 m Xn ВЕ. y 是 m 维 向 量 。 
问题 1: 假设 有 函数 /(y) ,如 果 把 x 看 成 常数 ,y 看 成 W 的 函数 ,如 何 根 据 V,f 计算 
Vf? 根据 链 式 法 则 ,由 于 w RA y: 有关 ,和 其 他 уь RAD 222. AA 


> werd) $3 ns 
2f > и | af Dy (waz af 


af _s Lu 2 зуя 




















Iw, 2 Iy, Iw, oy au ду wy ay 
对 于 W 的 所 有 元 素 有 
af af af af af 
m — P 
ws diii ay ду, ду, 
А 3 ; |= { ; P || + [Em = m] 
ар | а, ww 3f af 
Iw Pw. ay! ay." Iyn 
写成 矩阵 形式 为 


Vwf = (V ,f)xT 
问题 2: 如 果 将 W 看 成 常数 ,y 将 看 成 x 的 函数 ,如 何 根据 V ,f EV 77 由 于 任意 的 
Xi 和 所 有 的 у, 都 有 关系 ,根据 链 式 法 则 有 

















= = a( >) ware) " 
af If ду, af Me af Pu 
оа Лоу dn > 32 dn > ay we = [чи ww]V yf 
写成 矩阵 形式 为 
Vif = WY 


这 是 一 个 对 称 的 结果 ,在 计算 函数 映射 时 用 和 矩阵 W 乘 以 向 量 x 得 到 y ,在 求 梯度 时 用 矩 
B: W 的 转 置 乘 以 y 的 梯度 得 到 x 的 梯度 。 
问题 3: 如 果 有 向 量 到 向 量 的 映射 : 
у = glx) 
写成 分 量 形式 为 
yi = gai) 
在 这 里 每 个 w 只 和 对 应 的 x; 有关 ,与 其 他 所 有 v; GAD HK. BAT PRI TRE 
的 映射 函数 g。 对 于 函数 SO) ,如 何 根据 V ,f 计算 Vv f? 根据 链 式 法 则 ,由 于 每 个 y; 只 和 
对 应 的 x; 有关, 有 


If _ If ду: 
Ixi ду; Ixi 








写成 矩阵 形式 为 
Vif =V,fOg (x) 
即 两 个 向 量 对 应 元 素 相 乘 ,这 种 乘法 在 9. 2. 1 节 已 经 介绍 。 
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问题 4: 接 下 来 我 们 考虑 更 复杂 的 情况 ,如 果 有 下 面 的 复合 函数 : 


и = Wx 

у = g(u) 
其 中 ,g 是 向 量 对 应 元 素 一 对 一 映射 , 即 

yi = g(xi) 


如 果 有 函数 f(y) ,如 何 根 据 V ,f 计算 Vv f? 在 这 里 有 两 层 复合 ,首先 是 从 x Bl ,然后 
是 从 uw 到 y。 根 据 问题 2 和 问题 3 的 结论 ,有 
Vif =W'(V.f) =W'((V р) О (u)) 
问题 5: x 是 n AEM y 是 m 维 向 量 , 有 映射 у= (х). 
Yi = gin xx). i= 1,2,--,m 
这 里 的 映射 方式 和 上 面 介绍 的 不 同 。 对 于 向 量 y 的 每 个 分 量 y; ,映射 函数 g, 不 同 ,而 
H y: 和 向 量 x 的 每 个 分 量 x; 有 关 。 对 于 函数 f(y) ,如 何 根据 Y ,f 计算 Vv .f? 根据 链 式 法 
则 ,由 于 任何 的 y, 和 任何 的 x; 都 有 关系 ,因此 有 























af 
aa | 
af K 9f ду; дур, ду» 
am £d ду; Ax; [22 az; | 1 
aya] 
对 于 所 有 元 素 有 
af ду, Əy,][ OF ду : ду VT Of 
ax, 9n ` Ax, || Ay, 9x ` ax, | | Ay, 
af Ay, . ду, || 9f In Im af 
Ix, 9r, ` gz 站 ayn дх\ Эт, | ду„ 
写成 矩阵 形式 有 


Jtrb SD iy AT MERE AS 2 章 中 介绍 了 这 一 概念 。 前 面 介绍 的 几 个 问题 都 是 这 个 映射 


的 特例 。 之 所 以 要 推导 上 面 几 种 复合 函数 的 导数 ,是 因为 它们 在 机 器 学 习 中 具有 普遍 性 。 
后 面 介绍 的 各 种 神经 网 络 ,无 论 是 多 层 前 馈 型 网 络 , 还 是 卷 积 神经 网 络 , 以 及 循环 神经 网 络 ， 
映射 函数 都 是 这 样 的 形式 。 
根据 上 面 的 结论 可 以 方便 地 推导 出 神经 网 络 的 求 导 公式 。 假 设 神 经 网 络 有 nn 层 , 第 1 

层 神经 元 个 数 为 s,。 第 1 层 从 第 /一 1 层 接收 的 输入 向 量 为 x? ,本 层 的 权重 矩阵 为 W”， 
偏 置 向 量 为 bp? ,输出 向 量 为 x2 。 该 层 的 输出 可 以 写成 如 下 和 矩阵 形式 ， 

u? = Ww xen +p 

a" — am 
Ж," E si X sca BJ BEEF u” RI DO FE s, 维 的 向 量 。 根 据 定 义 ,W ЯП b? 是 目标 函数 的 自 
变量 ,w2 和 х 可 以 看 成 它们 的 函数 。 根 据 前 面 的 结论 ,损失 函数 对 权重 矩阵 的 梯度 为 

Vwo L = (V 40 L) (x^? )T 
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偏 置 向 量 的 梯度 为 
V n L = VoL 

现在 的 问题 是 ,梯度 Yo 工 怎么 计算 ? 我 们 分 两 种 情况 讨论 ,如 果 第 ! 层 是 输出 层 , 在 

这 里 只 考虑 对 单个 样本 的 损失 函数 ,根据 9. 2. 1 节 推 导 的 结论 ,这 个 梯度 为 
VoL = (V ,0 L)O f' (u?) = (x? — y) Әу (и) 
这 就 是 输出 层 的 神经 元 输出 值 与 期 望 值 之 间 的 误差 。 这 样 得 到 输出 层 权 重 的 梯度 为 
Vwo = (x? — y) O f' Cu ) (x )T 

等 号 右边 第 一 个 乘法 是 向 量 对 应 元 素 乘 ; 第 二 个 乘法 是 矩阵 乘 ,在 这 里 是 列 向 量 与 行 向 

量 的 乘积 ,结果 是 一 个 矩阵 ,尺寸 刚好 和 权重 矩阵 相同 。 损 失 函 数 对 偏 置 项 的 梯度 为 
Viol = (x? — y)O f' (i?) 
下 面 考虑 第 二 种 情况 。 如 果 第 1 层 是 隐 含 层 , 则 有 
u^? == WED ya + peo == wer flu ) + pon 
假设 梯度 Y_ oe L 已 经 求 出 ,根据 前 面 的 结论 ,有 
VOL — (V ,0 L)O f' CU) = (CW? )T y qo» L)@ f' u”) 

这 是 一 个 递 推 的 关系 ,通过 VY vo L 可 以 计算 出 V vo L 33 HE B 2& ex X fi iJ e if f h J: 

的 梯度 值 我 们 之 前 已 经 算出 。 由 于 根据 Y vo L 可 以 计算 出 Y wo L 和 Yuso 工 ,因此 ,可 以 计算 


出 任意 层 权 重 与 偏 置 的 梯度 值 。 
为 此 ,我们 定义 误差 项 为 损失 函数 对 临时 变量 w 的 梯度 : 
"-— x? — y) O f' UP) 1= т 


СИТО НР) О (ш) LAM 
向 量 ó” RS УРА Ја he TB ЖОШ. ix e — HEY EB 依赖 于 H, 
推 的 终点 是 输出 层 , 它 的 误差 项 可 以 直接 求 出 。 
根据 误差 项 可 以 方便 地 计算 出 对 权重 和 偏 置 的 偏 导数 。 首 先 计算 输出 层 的 误差 项 , 根 
据 它 得 到 权重 和 偏 置 项 的 梯度 ,这 是 起 点 ;根据 上 面 的 递 推 公式 , 逐 层 向 前 ,利用 后 一 层 的 误 
差 项 计算 出 本 层 的 误差 项 ,从 而 得 到 本 层 权 重 和 偏 置 项 的 梯度 。 
单个 样本 的 反 向 传播 算法 在 每 次 进 代 时 的 流程 如 下 。 
COD 正 向 传播 ,利用 当前 权重 和 偏 置 值 ,计算 每 一 层 对 输入 样本 的 输出 值 。 
(2) 反 向 传播 ,对 输出 层 的 每 一 个 节点 计算 其 误差 
$^? = (x? — y) O f' (Cu?) 
(3) 对 于 /二 一 1,… ,2 的 各 层 , 计 算 第 ! 层 每 个 节点 的 误差 : 
ô” = (WED THY Qf'(u? ) 
СЗ) 根据 误差 计算 损失 函数 对 权重 的 梯度 值 : 
V o L = 69 (xt 
对 偏 置 的 梯度 为 
VoL = 6? 
(5) 用 梯度 下 降 法 更 新 权重 和 偏 置 : 
WP =W? — уо], 
b^ = b? — уо, 
实现 时 需要 在 正 向 传播 时 记 住 每 一 层 的 输入 向 量 x77 P ,本 层 的 激活 函数 导数 值 Qu D 
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神经 网 络 的 训练 算法 可 以 总 结 为 
复合 函数 求 导 十 梯度 下 降 法 
训练 算法 有 两 个 版 本 : 批量 模式 和 单 样本 模式 。 批 量 模式 在 每 次 梯度 下 降 法 迭代 时 对 
所 有 样本 计算 损失 函数 值 , 计 算出 对 这 些 样 本 的 总 误差 ,然后 用 梯度 下 降 法 更 新 参数 ; 单 样 
本 模式 是 每 次 对 一 个 样本 进行 前 向 传播 ,计算 对 该 样本 的 误差 ,然后 更 新 参数 , 它 可 以 天 然 
地 支持 增 量 学 习 , 即 动态 地 加 入 新 的 训练 样本 进行 训练 。 
上 面 给 出 的 是 单个 样本 的 反 向 传播 过 程 。 对 于 多 个 样本 的 情况 ,输出 层 的 误差 项 是 所 
有 样本 误差 的 均值 。 反 向 传播 计算 梯度 时 ,在 每 一 层 , 对 每 个 样本 计算 梯度 ,然后 计算 所 有 
样本 梯度 的 平均 值 。 
还 可 以 采取 一 种 介 于 单个 模式 和 批量 模式 中 间 的 策略 ,每 次 梯度 下 降 法 迭代 时 只 选择 
一 部 分 样本 进行 计算 ,在 卷 积 神经 网 络 一 章 中 会 介绍 这 种 方法 。 
除了 标准 的 梯度 下 降 法 迭代 更 新 策略 之 外 ,还 有 其 他 改进 算法 ,在 第 15 章 中 详细 介绍 。 
除了 梯度 下 降 法 这 种 一 阶 优化 技术 外 ,还 可 以 采用 牛顿 法 等 二 阶 优化 算法 。 一 般 来 说 ,神经 
网 络 的 优化 损失 函数 不 是 凸 函数 ,因此 ,不 能 保证 收敛 到 全 局 最 优 解 , 网 络 层次 深 了 之 后 也 
会 带 来 一 系列 的 困难 ,这 是 神经 网 络 在 过 去 被 邂逅 的 主要 原因 之 一 。 
反 向 传播 算法 是 为 了 解决 多 层 神经 网 络 训 练 问题 而 设计 的 一 种 方法 ,在 人 脑 的 神经 网 
络 中 ,没有 足够 的 证 据 证 明 也 使 用 了 这 种 机 制 。 网 络 中 神经 元 的 连接 关系 以 及 训练 的 目标 
函数 决定 了 所 使 用 的 训练 算法 。 


9.3 实验 程序 


下 面 通过 实验 程序 来 介绍 神经 网 络 在 分 类 问题 中 的 使 用 ,程序 基于 OpenCV 的 前 馈 型 
神经 网 络 类 。 在 这 个 例子 中 ,每 类 有 50 个 训练 样本 ,特征 向 量 同 样 是 用 正 态 分 布 的 随机 数 
生成 。3 类 样本 的 标签 向 量 分 别 被 设置 成 

(十 1, 一 1, 一 1),( 一 1, 十 1,1),( 一 1, 一 1, 十 1) 

这 是 我 们 前 面 介 绍 过 的 用 于 分 类 问题 时 神经 网 络 输出 向 量 的 编码 规则 。 例 子 里 的 神经 
网 络 有 3 层 , 第 一 层 2 个 神经 元 对 应 于 输入 的 特征 向 量 , 第 三 层 有 3 个 神经 元 ,对 应 于 3 个 
类 ,第 二 层 ( 即 隐 含 层 ) 有 6 个 神经 元 。 

在 用 这 些 样 本 训练 得 到 神经 网 络 模型 之 后 ,对 图 像 平面 内 所 有 的 点 进行 预测 。 在 预测 
时 ,升级 网 络 的 输出 值 是 一 个 3 维 向 量 ,我 们 寻找 向 量 最 大 的 分 量 ,对 应 的 分 量 号 就 是 分 量 
的 结果 。 程 序 源 代码 如 下 : 


int main(int argc, char * * argv) 
{ 
const int kWidth =512, kHeight =512; 
Vec3b геа (0, 0, 255), green (0, 255, 0), blue (255, 0, 0); 
Mat image =Mat::zeros(kHeight, kWidth, CV_8UC3); 
// 为 3 类 训练 样本 的 标签 赋值 
float labels[150] [3]; 
for (int i=0 ; i <50; i++) 
{ 
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labels[i] [0] =1.0f; 
labels[i] [1] =-1.0#; 
labels [i] [2] =-1.0#; 


for (int i =50; i<100; i++) 

{ 
labels [i] [0] =-1.0f; 
labels[i] [1] =1.0f; 
1аре15[1] [2] =-1.0#; 








} 

for (int і =100; і <150; i++) 

{ 
1аре15 [1] [0] =-1.0#; 
1аре15 [1] [1] =-1.0#; 
1аре15 [1] [2] =1.0#; 








} 

Mat trainResponse (150, 3, CV З2ЕС1, labels); 

// 生成 训练 样本 特征 向 量 数组 

float trainDataArray[150][2]; 

RNG rng; 

for (int i =0; i <50; i++) 

{ 
trainDataArray[i] [0] =250 +static_cast<float> (rng.gaussian (30) ); 
trainDataArray[i] [1] =250 *static cast«float» (rng.gaussian (30) ); 

} 

for (int і =50; i <100; i++) 

{ 
trainDataArray[i] [0] =150 +static_cast<float> (rng.gaussian (30) ); 
trainDataArray [i] [1] =150 +static_cast<float> (rng.gaussian (30) ); 

} 

for (int і =100; і <150; i++) 

{ 
trainpataArray[i][0] =320 +static_cast<float> (rng.gaussian(30)); 








trainDataArray[i][1] =150 +static cast<float> (rng.gaussian(30)); 

) 

Mat trainData(150, 2, CV_32FC1, trainDataArray); 

CvANN MLP mlp; 

// 神经 网 络 有 3 层 ,第 一 层 2 个 神经 元 ,对 应 于 二 维 的 特征 向 量 。 第 二 层 有 

// 6 个 神经 元 ,第 三 层 有 3 个 神经 元 ,对 应 分 类 问题 中 的 3 个 类 别 

Mat layerSizes= (Mat «int» (1,3) <<2, 6, 3); 

CvANN MLP TrainParams params; 

// 神经 网 络 的 训练 参数 ,在 后 面 会 详细 解释 

params.term crit =cvTermCriteria( CV TERMCRIT ITER | CV TERMCRIT EPS, 
1000, 0.001 ); 

params.train method =CvANN МІР TrainParams: :BACKPROP; 
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params.bp dw scale =0.1; 


params.bp moment scale =0.1; 

// 创建 神经 网 络 

mlp.create (layerSizes, CvANN MLP::SIGMOID SYM); 

// 训练 神经 网 络 

mlp.train(trainData, trainResponse,Mat(), Mat(), params); 
// 对 图 像 内 所 有 点 (i,j ) 进 行 预测 ,根据 分 类 结果 显示 不 同 的 颜色 


for (int і =0; i <image.rows; i++) 


{ 


for (int j =0; j <image.cols; j++) 


( 


) 


Mat sampleMat = (Mat <float> (1, 2) <<j, i); 
Mat predictResult (1, 3, CV 32FC1); 
// 用 神经 网 络 预测 ,predictResult 是 预测 输出 向 量 
mlp.predict (sampleMat, predictResult); 
Point maxLoc; 
double maxVal; 
// 训练 向 量 的 最 大 分 量 ,maxVal 是 返回 的 最 大 分 量 值 ,maxLoc 是 最 大 值 
// 对 应 的 分 量 号 , 即 分 类 结果 
minMaxLoc (predictResult, 0, &maxVal, 0, &maxLoc); 
// 根据 分 类 结果 显示 不 同 的 颜色 
if (maxLoc.x ==0) 
image.at<Vec3b> (i, j) =red; 
else if (maxLoc.x ==1) 
image.at<Vec3b> (i, j) =blue; 
else 


image.at<Vec3b> (i, j) =green; 


// 显示 训练 样本 


for (int i =0; i<trainData.rows; i++) 


{ 


const float * v =trainData.ptr<float> (i); 


Point pt -Point((int)v[0], (int)v[1]); 
if (labels[i] [0] ==1) 


circle (image, pt, 5, Scalar::all(0), -1, 8); 


else if (labels[i][1] ==1) 


circle (image, pt, 5, Scalar::al1(128), -1, 8); 


else 


} 


circle (image, pt, 5, Scalar::all(255), -1, 8); 


imshow ("MLP classifier demo", image); 


waitKey (0); 


return 0; 
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机 器 学 习 与 应 用 


程序 运行 结果 如 图 9. 4 所 示 。 





图 9.4 神经 网 络 对 三 类 问题 的 分 类 效果 


图 中 的 分 类 边界 是 曲线 ,这 证 明了 多 层 神经 网 络 具 有 非 线 性 建 模 的 能 力 。 在 这 里 只 用 
了 一 个 隐 含 层 , 隐 含 层 只 有 6 个 神经 元 ,通过 sigmoid 函数 的 作用 ,就 能 拟 合 出 复杂 的 曲线 
边界 ,而 且 将 平面 分 成 3 部 分 。 


9.4 理论 解释 


神经 网 络 代 表 了 人 工 智 能 中 的 连接 主义 思想 ,是 一 种 仿生 的 方法 。 在 实现 时 , 它 又 与 大 
脑 神经 系统 的 结构 不 同 ;从 数学 上 看 ,神经 网 络 是 一 个 复合 函数 。 本 节 将 介绍 对 神经 网 络 的 
理论 解释 ,包括 数学 特性 以 及 与 动物 神经 系统 的 关系 两 个 层面 。 


9.4.1 数学 性 质 


神经 网 络 是 一 个 复合 函数 ,这 会 让 人 们 考虑 一 个 问题 : 这 个 函数 的 建 模 能 力 有 多 强 ? 
即 它 能 拟 合 什么 样 的 目标 函数 。 已 经 证 明 , 只 要 激活 函数 选择 得 当 , 神 经 元 数量 足够 ,使 用 
有 具有 一 个 隐 含 层 的 神经 网 络 就 可 以 实现 对 任何 一 个 从 输入 向 量 到 输出 向 量 的 连续 映射 函数 
AY UE ,这 个 结论 称 为 万 能 通 近 (Universal Approximation) 定 理 。 

这 个 定理 的 表述 : 如 果 g(xz) 是 一 个 非常 数 、 有 界 且 单调 递增 的 连续 函数 ,I 是 m 维 的 
单位 立方 体 ,I 中 的 连续 函数 空间 为 C(L。)。 对 于 任意 его 以 及 函数 f€ COLO ,存在 整数 
NN, 实数 vi、bi, 实 向 量 w, € R " ,构造 函数 FCxr) 作 为 函数 了 的 逼近 : 

F(x) = Jug wix + b) 

对 任意 的 x€ I, 满足 

| F(x) — f(x) |< e 

这 个 定理 的 直观 解释 : 可 以 构造 出 上 面 这 样 的 函数 ,逼近 定义 在 单位 立方 体 空间 中 的 
任何 一 个 连续 函数 到 任意 指定 的 精度 。 这 一 结论 和 多 项 式 逼 近 类 似 , 后 者 利用 多 项 式 函 数 
来 双 近 任何 连续 函数 到 任何 精度 。 显 然 ,单个 隐 含 层 的 神经 网 络 就 是 这 种 形式 的 函数 。 文 
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献 [11] 证 明了 以 下 类 似 的 结论 : 如 果 o 是 一 个 连续 函数 ,并 且 满 足下 面 的 条 件 : 
іт, -coCz) = 0 
lim, -co(Cz) = 1 
则 函数 族 : 
fO) = У) ao (wlx + bi) 
TE n AEP dy vr 7; Жл [н] C^ [0.1] rp Bd 5 Ч, ВСЕ AY BV a E SCTE P {у эу 77 
体 空 间 中 的 任意 连续 函数 到 任意 指定 的 精度 。 显 然 sigmoid 函数 就 满足 对 о 的 要 求 , 因 此 ， 
采用 它 作为 激活 函数 的 神经 网 络 具 有 上 面 的 性 质 。 上 面 这 些 结 论 的 函数 输出 值 都 是 一 个 标 
量 , 但 可 以 把 它 推广 的 向 量 的 情况 ,神经 网 络 的 输出 一 般 是 一 个 向 量 。 
文献 [6j 指 出 ,万 能 双 近 特性 并 不 取决 于 神经 网 络 具 体 的 激活 函数 ,而 是 由 神经 网 络 的 
结构 保证 的 。 只 要 网 络 规 模 设计 得 当 , 使 用 sigmoid 函数 和 ReLU 函数 作为 激活 函数 的 神 
经 网 络 的 逼近 能 力 都 能 够 得 到 保证 。ReLU 函数 定义 为 
ReLU(Cz) = max(0.2) 
它 是 一 个 分 段 线 性 函数 。 文 献 [11] 和 [14] 证 明和 分 析 了 sigmoid 激活 函数 的 逼近 能 
力 。 文 献 L[15] 和 [16] 分 析 了 使 用 ReLU 激活 函数 的 神经 网 络 的 逼近 能 力 , 在 第 15 章 中 会 详 
细 介 绍 这 个 函数 。 


9.4.2 与 神经 系统 的 关系 


人 工 神 经 网 络 是 对 生物 神经 系统 的 模拟 ,但 只 是 简单 的 模拟 ,在 多 个 方面 两 者 的 机 理 是 
不 同 的 。 人 脑 的 单个 神经 元 有 很 复杂 的 结构 ,各 个 神经 元 在 结构 和 功能 上 不 是 完全 相同 的 ， 
另外 ,神经 元 之 间 的 连接 关系 非常 复杂 。 在 训练 方式 上 ,人 脑 的 神经 网 络 没有 反 向 传播 算法 
这 种 机 制 ,在 外 界 刺激 下 建立 神经 元 之 间 连 接 通 路 的 机 制 远 比 反 向 传播 算法 复杂 。 本 章 介 
绍 的 前 馈 型 人 工 神 经 网 络 本 质 上 来 说 只 是 一 个 多 层 的 复合 函数 。 


9.5 面临 的 问题 


神经 网 络 的 层次 越 多 ,神经 元 数量 越 大 , 建 模 能 力 就 越 强 ,因此 ,对 于 复杂 的 实际 应 用 问 
题 人 们 倾向 于 使 用 更 复杂 的 网 络 。 但 是 随 着 网 络 规模 的 增加 (尤其 是 层 数 的 增加 ) 会 带 来 一 
些 问题 ,本 节 中 详细 介绍 这 些 问 题 。 


9.5.1 梯度 消失 


根据 前 面 推导 的 公式 ,在 用 反 向 传播 算法 计算 误差 项 时 每 一 层 都 要 乘 以 本 层 激 活 函 数 
的 导数 : 
5° — (em TEM OF Ca”) 
如 果 激活 函数 导数 的 绝对 值 小 于 1, 多 次 连 乘 之 后 误差 项 很 快 会 衰减 到 接近 于 0, 参 数 
的 梯度 值 由 误差 项 计算 得 到 ,从 而 导致 前 面 层 的 权重 梯度 接近 于 0, 参 数 无 法 有 效 地 更 新 ， 
这 称 为 梯度 消失 问题 。 与 之 相反 的 是 梯度 爆炸 问题 ,如 果 激活 函数 导数 的 绝对 值 大 于 1, 多 
次 乘积 之 后 权重 值 会 趋向 于 非常 大 的 值 。 梯 度 消失 问题 最 早 在 1991 年 发 现 ,文献 [17] 对 深 
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层 网 络 难以 训练 的 问题 进行 了 分 析 。 
9.5.2 退化 


与 过 拟 合 不 同 的 是 ,退化 (Degradation) 是 指 在 训练 集 和 测试 集 上 的 误差 都 很 大 。 实 验 
证 明 ,神经 网 络 的 训练 误差 和 测试 误差 会 随 着 层 数 的 增加 而 增 大 。 文 献 [18] 对 网 络 层次 过 
多 导致 的 退化 问题 进行 了 分 析 ,并 提出 了 解决 方案 。 在 第 15 章 中 会 详细 介绍 解决 梯度 消失 
和 退化 问题 的 各 种 方法 ,包括 使 用 新 的 激活 函数 ,以 及 高 速 公 路 网 络 、 残 差 网 络 .LSTM 等 
新 的 网 络 结构 。 


953 ”局 部 极 小 值 


神经 网 络 的 损失 函数 一 般 不 是 凸 函 数 , 因 此 ,在 训练 时 有 陷入 局 部 极 小 值 的 风险 ,梯度 
下 降 法 只 能 保证 收敛 到 梯度 为 0 的 点 ,而 这 不 一 定 是 局 部 极 值 点 ,更 不 能 保证 是 全 局 最 优 值 
点 。 如 果 对 神经 网 络 训练 中 的 局 部 极 值 问题 感 兴趣 ,可 以 进一步 阅读 文献 [24-26]。 
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除了 局 部 极 小 值 问 题 之 外 ,神经 网 络 在 训练 时 可 能 还 会 面临 鞍点 问题 。 第 3 章 中 已 经 
介绍 过 ,鞍点 是 指 梯度 为 0 但 Hessian 矩阵 不 定 的 点 ,这 不 是 局 部 极 值 点 。 文 献 [28] 对 高 维 
非 凸 优化 问题 中 的 鞍点 问题 进行 了 分 析 ,文献 L[21-23] 对 损失 函数 曲面 的 形状 进行 了 分 析 ， 
感 兴趣 的 读者 可 以 进一步 阅读 。 对 神经 网 络 训练 时 优化 算法 的 定量 分 析 可 以 阅读 文 
献 [29] 。 


9.6 实现 细节 问题 


本 节 介 绍 神经 网 络 的 实现 细节 问题 ,包括 输入 向 量 与 输出 向 量 值 的 设 定 、 网 络 的 规模 、 
激活 函数 的 选择 、 损 失 函 数 的 选择 .权重 的 初始 化 .过 拟 合 问题 与 正则 化 项 ,学 习 率 的 设 定 、 
冲 量 项 。 它 们 对 于 保证 网 络 的 精度 非常 重要 。 


9.6.1 输入 值 与 输出 值 


神经 网 络 输 入 向 量 的 各 个 分 量 数值 范围 可 能 相差 很 大 ,例如 ,有 些 变 量 为 [0,1], 有 些 变 
量 为 [0,1000]。 显 然 这 样 不 利于 数值 求解 和 稳定 性 ,可 以 把 每 个 分 量 都 变换 到 同一 个 范围 
内 ,如 [0,1] 或 者 [一 1, 十 1]], 这 称 为 输入 向 量 的 归 一 化 。 归 一 化 一 般 采 用 下 面 的 变换 .: 

т =axXz+b 
其 中 ,x 是 原始 的 输入 值 ;x 是 变换 后 的 输入 值 ;参数 a 和 2 在 训练 时 通过 对 训练 样本 统计 
得 到 ,具体 实现 在 源 代码 分 析 中 会 讲 到 。 

另 一 个 问题 是 对 输出 向 量 ( 即 标签 值 ) 的 设 定 。 对 于 有 个 类 的 分 类 问题 ,如 果 选 择 
sigmoid 函数 作为 激活 函数 ,一 般 使 用 编码 向 量 的 方式 。 具 体 做 法 是 ,将 输出 向 量 设 置 为 
维 , 如 果 训 练 样本 属于 第 i 类 ,将 输出 向 量 的 第 i 个 分 量 设置 为 1, 其 他 的 设置 为 0, 即 

(0,0, ---,4-1,0,---0) 
在 预测 时 ,计算 输出 向 量 分 量 的 最 大 值 .这 个 值 对 应 的 分 量 号 就 是 分 类 结果 。 这 种 方式 
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称 为 one-hot 编码 。 如 果 是 回归 问题 ,一般 将 训练 样本 的 输出 值 归 一 化 到 一 个 区 间 范 围 内 ， 
比如 [一 1, 十 1] 或 [0,1]。 


962 ”网 络 规模 


在 具体 应 用 中 ,神经 网 络 应 该 设计 成 多 少 层 ,各 层 的 神经 元 个 数 设 置 为 多 少 , 并 没有 一 
个 固定 的 结论 。 通 常情 况 下 ,网 络 至 少 要 有 一 个 隐 含 层 。 输 入 层 神 经 元 的 个 数 必须 等 于 特 
征 向 量 的 维 数 , 输 出 层 神经 元 的 个 数 必须 等 于 要 分 类 的 类 数 或 者 要 回归 的 目标 向 量 的 维 数 。 
关键 问题 是 确定 隐藏 层 的 神经 元 个 数 ,这 可 以 通过 实验 来 确定 。 

由 于 计算 能 力 的 限制 以 及 层 数 过 多 带 来 的 梯度 消失 等 问题 ,在 很 长 一 段 时 间 内 ,实际 应 
用 时 神经 网 络 的 规模 都 不 大 ,一 般 只 有 3 一 4 层 ,每 层 的 神经 元 个 数 也 不 太 多 。 随 着 近 几 年 
深度 学 习 的 兴起 ,网 络 的 规模 不 断 增 大 ,目前 最 大 的 网 络 层 数 已 经 超过 1000 层 , 神 经 元 个 数 
已 经 到 百 亿 数量 级 ,接近 人 脑 的 神经 元 数 。 


963 激活 函数 


除了 sigmoid 函数 之 外 ,常用 的 激活 函数 还 有 对 称 型 sigmoid PA RX. tanh OX ih TE UJ PR 
TO , 短 函 数 、ReLU( 修 正 线 性 单元 ) 等 。 因 为 反 向 传播 时 需要 计算 激活 函数 的 导数 值 ,人 们 
对 激活 函数 的 要 求 是 几乎 处 处 可 导 ,一 般 情况 下 ,都 会 选择 单调 增 函 数 。 

tanh 函数 定义 为 

















_ ote 
їапһ(т) = = ды 
е 


1 十 e 
tanh 函数 的 图 像 如 图 9. 5 所 示 。 


1 一 
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-1 — 
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图 9.5 tanh 函数 的 图 像 


这 个 函数 是 一 个 奇 函数 ,关于 0 点 是 对 称 的 。 很 容易 证 明 它 的 导数 为 
tanh'(z) = 1— (їапһ(х))* 
新 的 激活 函数 是 神经 网 络 一 个 重要 的 改进 点 ,更 多 的 激活 函数 在 第 15 章 中 详细 介绍 。 
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964 损失 函数 


BR T Ek ERE BIHA ра 8. AATE A HA AI Е РЕ. Зк Й НЕЗА 0 РА АЕ. F 
(ia) 8i , — R HEE SU EC E RE BUE EARR, А Л РА САОН 5 fE 25 15 章 中 详细 
介绍 。 


9.65 权重 初始 化 
神经 网 络 在 训练 时 需要 初始 化 权重 参数 ,作为 梯度 下 降 法 的 起 始 值 。 在 这 里 ,不 能 简单 


地 初始 化 为 0 或 者 1 ,一 般 的 做 法 是 用 服从 某 种 分 布 的 随机 数 来 初始 化 。 更 多 的 细节 将 在 
后 面 的 源 代码 分 析 中 介绍 。 


96.6 正则 化 


神经 网 络 也 会 出 现 过 拟 合 问题 ,一 种 解决 方法 是 在 损失 函数 中 加 上 正则 化 项 。 除 此 之 
外 ,还 有 dropout, 在 第 15 章 中 会 详细 介绍 。 如 果 使 用 L2 正则 化 ,加 入 正则 化 项 之 后 的 损 
AR PR AE JI 


2m 
由 于 L2 正则 化 项 的 梯度 为 到 ,加 入 正则 化 项 之 后 参数 梯度 的 计算 公式 中 要 加 上 AW, 
如 果 是 L1 正则 化 ,损失 函数 为 


LW = 3-5) yaa А twill 
i=l 


La = i- yh EA W l, 

由 于 LI 正则 化 项 的 梯度 为 sgn WO ,参数 梯度 的 计算 公式 中 要 加 上 Asgn(W,)。 加 上 
正则 化 项 之 后 , 反 向 传播 时 只 需要 在 每 层 权重 的 梯度 项 上 加 上 正则 化 项 的 梯度 值 , 然 后 用 梯 
度 下 降 法 更 新 。 

967 学 习 率 的 设 定 

学 习 率 是 梯度 下 降 法 中 梯度 的 系数 , 它 决定 了 参数 的 更 新 速度 。 一般 将 它 设置 为 一 个 
很 小 的 数 ,如 0.001。 在 有 些 实现 中 采用 了 更 复杂 的 策略 . 随 着 闪 代 的 进行 动态 地 调整 这 个 
值 ,在 第 15 章 中 会 看 到 这 些 细节 。 


9.6.8 动量 项 
为 了 加 快 算法 的 收敛 速度 减少 振荡 ,引入 动量 项 。 动 量 项 累积 了 之 前 的 权重 更 新 值 , 加 
上 此 项 之 后 的 参数 更 新 公式 为 


Wan = W, +V," 
其 中 ,V,+: 是 动量 项 , 它 取 代 了 之 前 的 梯度 项 。 动 量 项 的 计算 公式 为 
Ум =— aV wh (W,) 十 pV， 
它 是 上 一 时 刻 的 动量 项 与 本 次 梯度 值 的 加 权 平 均值 .其 中 ,a 是 学 习 率 ,y 是 动量 项 系 
数 。 如 果 按 照 时 间 c 进行 展开 , 则 第 zt 次 迭代 时 使 用 了 1-— 次 迭代 时 的 所 有 梯度 值 , 且 旧 的 
梯度 值 按 六 的 系数 指数 级 衰减 。 注 意 不 要 把 正则 化 项 和 动量 项 混淆 ,二 者 不 是 一 回 事 , 它 
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们 的 目的 也 不 同 , 正 则 化 项 是 为 了 防止 过 拟 合 , 动 量 项 是 为 了 加 快 梯度 下 降 法 的 收敛 , 它 使 
用 历史 信息 对 当前 梯度 值 进行 修正 ,以 抵消 在 病态 条 件 问题 上 的 来 回 振荡 。 


9.7 源 代 码 分 析 


下 面 分 析 OpenCV 的 神经 网 络 代码 , 它 实现 了 前 馈 神经 网 络 , 即 多 层 感知 器 模型 。 这 
是 一 个 轻 量 级 的 实现 , 既 可 以 用 于 分 类 问题 ,也 可 以 用 于 回归 问题 ,适合 用 来 学 习 。 

OpenCV 支持 的 激活 函数 包括 对 称 sigmoid 函数 、 高 斯 函数 、 恒 等 函数 。 表 9. 1 是 各 种 
激活 函数 和 它们 的 导数 。 


表 9.1 各 种 激活 函数 和 它们 的 导数 











类 型 激活 函数 = s 
对 称 sigmoid BI 289. (二 =) 
高 斯 函数 = usi 
恒 等 函 数 i 








在 OpenCV 中 所 有 神经 元 的 激活 函数 都 必须 相同 .有 相同 的 参数 ,这 些 参数 在 创建 神 
经 网 络 时 由 用 户 指 定 或 者 从 已 有 的 模型 里 加 载 ,后 面 不 会 变化 ,不 是 训练 需要 调整 的 参数 。 
在 实现 时 ,高 斯 函数 的 定义 为 

f(x) = Be 

这 里 实现 了 两 种 训练 算法 ,第 一 种 是 经 典 的 随机 顺序 反 向 传播 算法 59 。 第 二 种 是 批量 
模式 的 RPROP 029 

需要 强调 的 是 ,在 前 面 介绍 的 正 向 传播 和 反 向 传播 公式 中 ,输入 向 量 x 是 一 个 列 向 量 ， 
REEE W 的 每 一 行为 一 个 神经 元 与 上 层 神 经 元 的 连接 权重 向 量 。 由 于 使 用 了 C++ 语言 
实现 ,向 量 按照 行 存储 ,计算 公式 会 稍 有 不 同 , 为 了 与 之 适应 ,权重 矩阵 是 按照 列 存储 。 

如 果 x Jé frr ht BOR EW 按照 列 存储 , 即 每 一 列 为 本 层 一 个 神经 元 与 上 一 层 所 有 
神经 元 的 连接 权重 。 之 前 的 所 有 公式 都 要 加 上 转 置 , 正 向 传播 时 的 迭代 公式 为 

и? = хуу? +p? 

在 这 里 乘积 xP WO 是 一 个 行 向 量 。 误 差 项 也 是 一 个 行 向 量 , 反 向 传播 时 的 误差 计算 

公式 变 为 





50 = 6 (we? )T О f(u”) 
权重 梯度 的 计算 公式 变 为 
V L = (x 76° 


974 主要 数据 结构 


结构 体 CvANN_MLP_TrainParams 是 神经 网 络 的 训练 参数 , 供 训练 算法 使 用 。 定 义 
如 下 : 


struct CV_EXPORTS CvANN MLP TrainParams 


А 
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CvANN МІР TrainParams () 7 

CvANN MLP TrainParams ( CvTermCriteria term crit, int train method, 
double paraml, double param2=0 ); 

^CvANN MLP TrainParams(); 

enum ( BACKPROP-0, RPROP=1 }; // 训练 算法 的 类 型 ,两 种 反 向 传播 算法 

// 训练 算法 迭代 终止 条 件 ,达到 指定 迭代 次 数 或 者 精度 

CvTermCriteria term crit; 

// 训练 算法 类 型 ,BACKPROP 或 RPROP 

int train method; 

// 反 向 传播 算法 的 参数 ,bp_dw_scale 为 梯度 项 的 权重 系数 ,bp moment. scale JU 

// 动量 项 的 权重 系数 ,前 者 的 默认 值 为 0.1, 后 者 的 推荐 值 也 是 0.1 

double bp dw scale, bp moment scale; 

// rprop 算法 的 参数 ,分 别 为 Ao , 矿 . 太 .As 和 Aux, 具 体 见 后 面 的 介绍 

double rp_dw0, rp dw plus, rp dw minus, rp dw min, rp dw max; 

Hu 


类 CvANN МІР 实现 多 层 前 馈 型 神经 网 络 , 继 承 自 CvStat Model 类 ,定义 如 下 : 


class CV_EXPORTS CvANN MLP : public CvStatModel 
{ 
public: 
CvANN_MLP () ; 
// 构造 函数 ,创建 神经 网 络 ，layer_sizes 为 各 层 神经 元 数 
// activ func 为 激活 函数 的 类 型 ，f_paraml fll f param? 为 激活 函数 的 参数 
СУАММ MLP( const CvMat* layer sizes, 
int _activ_func=SIGMOID_SYM, 
double f рагат1= 0, double f param2=0 ); 
virtual ~CvANN_MLP(); 
// 创建 一 个 神经 网 络 , 参 数 和 前 面 的 构造 函数 相同 
virtual void create( const CvMat* layer sizes, 
int activ func-SIGMOID SYM, 
double f param1-0, double f param2=0 ); 
// 训练 函数 ,后 面 会 详细 讲解 
virtual int train( const CvMat* inputs, const CvMat* outputs, 
const CvMat * sample weights, const CvMat* sample idx=0, 
CvANN МІР TrainParams params —CvANN МІР TrainParams(), 
int flags=0 ); 
// 预测 函数 ,后 面 会 详细 讲解 
virtual float predict( const CvMat* inputs, CvMat* outputs ) const; 
// 清空 神经 网 络 ,释放 所 有 数据 
Virtual void с1еаг(); 
// 激活 函数 的 类 型 
enum { IDENTITY =0, SIGMOID SYM =1, GAUSSIAN =2 }; 
// 对 输入 和 输出 数据 进行 缩放 的 参数 
enum ( UPDATE WEIGHTS =1, NO INPUT SCALE =2, NO OUTPUT SCALE =4 }; 


жов 人 工 神经 网 络 





// 从 模型 文件 中 载 和 神经 网 络 
virtual void read( CvFileStorage* fs, CvFileNode* node ); 
// 将 神经 网 络 保存 到 模型 文件 中 
virtual void write ( CvFileStorage * storage, const char* name ) const; 
// 返回 神经 网 络 的 层 数 
int get layer count() ( return layer sizes ?layer_sizes->cols: 0; } 
// 返回 各 层 神经 元 个 数 
const CvMat * get layer sizes () { return layer sizes; } 
// 返回 第 layer 层 的 连接 权重 数组 , 层 编号 从 1 开始 
double * get weights (int layer) 
t 
return layer_sizes && weights && 
(unsigned)layer <= (unsigned)layer_sizes->cols ?weights[layer] : 0; 
} 
protected: 
// 为 训练 做 准备 
virtual bool prepare to train( const CvMat* inputs, const CvMat* outputs, 
const CvMat * sample weights, const CvMat* sample idx, 
CvVectors*  ivecs, CvVectors*  ovecs, double* * sw, int flags); 
// 反 向 传播 算法 ,这 是 默认 的 训练 算法 ,使 用 单个 样本 的 随机 梯度 下 降 法 
virtual int train backprop( CvVectors ivecs, CvVectors _ovecs, const double * sw); 
// 反 向 传播 算法 ,RPROP 算法 
virtual int train rprop( CvVectors ivecs, CvVectors _ovecs, const double * sw); 
// 计算 激活 函数 的 值 , 供 预测 函数 使 用 
virtual void calc activ func( CvMat* xf, const double * bias ) const; 
// 计算 激活 函数 值 和 导数 值 , 供 训练 函数 在 正 向 传播 时 使 用 
virtual void calc activ func deriv( CvMat* xf, CvMat* deriv, const double* bias) 
const; 
// 设置 激活 函数 的 参数 值 
virtual void set_activ_func( int activ func=SIGMOID SYM, 
double f paraml=0, double f param2=0 ); 
// 初始 化 权重 参数 值 
virtual void init weights(); 
// 对 输入 向 量 进 行 缩放 
virtual void scale input( const CvMat* src, CvMat* dst ) const; 
// 对 输出 向 量 进 行 缩放 


virtual void scale output( const CvMat* src, CvMat* dst ) const; 


// 计算 输入 向 量 的 缩放 系数 

virtual void calc input scale( const CvVectors * vecs, int flags ); 
// 计算 输出 向 量 的 缩放 系数 

virtual void calc_output_scale( const CvVectors* vecs, int flags ); 
// 将 参数 保存 到 模型 文件 中 


virtual void write params( CvFileStorage* fs) const; 


// 从 模型 文件 中 读 取 参数 


virtual void read params ( CvFileStorage* fs, CvFileNode * node ); 


160) SEIS HA 


н 


9:72 


CvMat* layer sizes; // 每 一 层 的 神经 元 数 ,1Xn 数组 ,n 为 层 数 
CvMat* wbuf; // 为 权重 、 偏 置 项 统一 开辟 的 存储 区 域 

CvMat * sample weights; // 训练 样本 权重 数组 

double * + weights; // 每 一 层 的 权重 矩阵 ,注意 , 偏 置 项 也 存储 在 这 里 
double f paraml, f param2; // 激活 函数 的 参数 c 和 有 

double min val, max val, min vall, max vall;// 辅助 变量 

int activ func; // 激活 函数 的 类 型 

int max count, max buf sz; // 辅助 变量 

CvANN MLP TrainParams params; // 训练 参数 

CvRNG rng; // 用 于 产生 随机 数 的 参数 ,权重 初始 化 时 使 用 


激活 函数 


前 面 介绍 了 OpenCV 支持 的 激活 函数 ,每 种 激活 函数 都 有 两 个 参数 (例外 的 是 恒 等 函 
数 , 不 需要 参数 )。 

calc_activ_func 计算 激活 函数 的 值 , 仅 用 于 预测 函数 。sums 为 要 计算 的 输入 变量 x, 同 
时 也 存储 返回 的 激活 函数 值 ,bias 为 偏 置 项 值 。 代 码 如 下 : 


void CvANN MLP::calc activ func( CvMat* sums, const double* bias) const 


{ 


int i, j, п =sums->rows, cols =sums->cols; 


double * data =sums->data.db; // x 
double scale =0, scale2 =f_param2; 
switch ( activ_func ) // 先 确定 第 一 个 系数 


{ 

case IDENTITY: 
scale =1.; 
break; 

case SIGMOID SYM: 
scale --f paraml; // -a 
break; 

case GAUSSIAN: 
Scale --f paraml* f paraml; // -a* 
break; 

default: 

} 

assert ( CV IS MAT CONT(sums->type) ); 

if(activ func !=GAUSSIAN ) 


t 
// 对 所 有 的 变量 x, 先 加 上 偏 置 b, 然 后 乘 以 系数 scale 
for( i =0; i <n; i++, data +=cols ) // 所 有 行 
for( j =0; 3 <cols; j++) // 所 有 列 


data[j] = (data[j] +bias[j]) * scale; 
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if(activ func ==IDENTITY ) 


return; 
} 
е1зе 
{ 
for( i =0; і <n; i++, data +=cols ) // 高 斯 激活 函数 
for( j =0; j <cols; j++) 
{ 
double t =data[j] *bias[j]; 11 先 加 上 偏 置 
data[j] =t * t * scale; // Ж-а 
} 
} 
cvExp( sums, sums ); // 计算 ex 


п *=cols; 
data -=n; 
switch( activ_func ) // 对 每 种 类 型 的 激活 函数 分 别处 理 
{ 
сазе SIGMOID_SYM: 
// 每 4 个 数 为 一 组 进行 计算 ,以 加 快速 度 , 纯 加 速 技巧 ,可 以 忽略 这 些 代 码 
for( i =0; і <=n -4; i+=4) 
{ 
double x0 =1.+data[i], x1 =1.+data[i+1], x2 =1.+data[i+2], 
x3 =1.+data[i+3]; 
double a =x0* х1, b =x2* x3, d -scale2/(a* b), t0, tl; 
a *=d; b *=d; 
tO = (2 -х0) * b * х1; t1 = (2 —x1) * b * x0; 
data[i] =t0; data[i+1] =t1; 
t0 = (2 -x2) * a * x3; tl = (2 -x3) * a * x2; 
data[i+2] =t0; data[i+3] =tl7 





} 

for(; i<n; i++) 

{ 
double t =scale2* (1. -data[i])/(1. *data[i]); // Жа ег 
data[i] =t; 

} 

break; 


case GAUSSIAN: 
for( i =0; i <n; i++) 
data[i] =scale2* data [i]; 
break; 


default: 
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函数 calc activ. func. deriv 同时 计算 激活 函数 与 其 导数 值 ,用 于 训练 函数 的 正 向 传播 
过 程 。_xf 既 作为 输入 x, 也 存放 输出 的 激活 函数 值 ,，df 为 返回 的 激活 函数 导数 ,bias 为 偏 
BO. BT. 


void CvANN MLP::calc activ func deriv(CvMat* xf, CvMat* df, const double * bias) 
const 
{ 
int i, j, n= xf-»rows, cols = xf-»cols; 
double * xf =_xf->data.db; 
double * df =_df->data.db; 
double scale, scale2 -f рагат2; 
assert( CV IS MAT CONT( xf->type & df-»type)); 
if(activ func -- IDENTITY ) // i eR C 
{ 
for( i =0; i <n; i++, xf +=cols, df +=cols ) 


for(j =0; j «cols; j++) 


t 
xf[j] *-bias[j]; // 加 上 偏 置 项 
df[j] =1; // 导数 为 1 
} 
return; 
} 
else if( activ func ==GAUSSIAN ) // 高 斯 函数 ,计算 公式 参考 表 10.1 
{ 
scale --f paraml* f paraml; // i-a 
scale2 * -scale; // i-a 


for( i =0; i <n; i++, xf *-cols, df *-cols) 
for( j =0; j «cols; j++) 


{ 


double t -xf[j] *bias[j]; // 先 对 x 加 上 偏 置 项 
df[j] =t* 2 * scale2; // 计算 -2Ba*x 
xf[j] =t*t* scale; 11 WR- 
} 
22 
cvExp( xf, xf); // Ж е" x 


п *=cols; 
xf -=n; df -=n; 
for( i =0; i <n; i++) 
atii] *=xf[i]; // 计算 -2azpe 
} 
else 
{ // 对 称 sigmoiq, 函 数 和 导数 的 计算 公式 参考 表 10.1 
scale =f_paraml; 
for(i=0; i <n; i++, xf +=cols, df +=cols ) 
for( j =0; j «cols; j++) 
{ 
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xf[j] = (x£[j] +tbias[j]) * scale; 
df[j] =-fabs (xf [31) ; 
} 
cvExp( df, df); 
n * -cols; 


xf --n; df --n; 


scale * -2* f param2; 

for( i =0; i <n; i++) 

t 
int sO =xf[i] >0 ?1 : -1; 
double t0 -1./(1. +df [i]); 
double t1 -scale * df [i] * tO * t0; 
t0 *-scale2* (1. -df[i]) * s0; 
df[i] -tl; 
xf[i] =t0; 


) 


973 ”权重 初始 化 


神经 网 络 权重 的 初始 化 使 用 Nguyen-Widrow 算法 , 它 也 是 一 种 随机 初始 化 算法 ,利用 
了 神经 元 数量 信息 。 假 设 前 一 层 神经 元 的 个 数 为 nm ,当前 层 神经 元 的 个 数 为 n (为 缩放 因 
子 ), 算 法 流程 如 下 。 

CD 计算 缩放 因子 : 


y= 0.7 Xa 
(2) 把 区 间 [ 一 1, 十 1 内 均匀 分 布 的 随机 数 作为 权重 то, 的 初始 值 。 
(3) 权重 归 一 化 : 

wg =Y T 





C 对 每 个 神经 元 的 偏 置 . 设 置 为 [一 ww; «roy ] 的 一 个 随机 数 。 
权重 初始 化 由 函数 init_weights 实现 ,与 前 面 描述 的 算法 稍 有 不 同 。 代 码 如 下 ; 


void CvANN MLP::init weights() 
{ 
int i, j, k; 
// 对 每 一 层 进行 处 理 ,注意 , 层 编 号 从 1 开始 
for(i-1; i«layer sizes-»cols; i++) 
{ 
int nl =layer sizes-»data.i[i-1]; // 第 i-1 层 的 神经 元 个 数 
int n2 -layer sizes-»data.i[i]; // % AAA EE 


// 计算 0.7 (п) 二 i, 即 缩放 因子 





164) SEIS ER 


double val =0, G =n2 >2 ?0.7 * pow((double)n1,1./(n2-1)) : 1.; 


double * w -weights[i]; // 88 i 09480 E RA 
// WH n1 * n2 的 矩阵 ,每 一 列 为 前 一 层 的 一 个 神经 元 和 本 层 所 有 神经 元 的 权重 
for( j =0; j «n2; j++) // 每 一 列 
{ 
double s =0; // 权重 累加 和 ,用 于 归 一 化 ,对 列 求 和 
for( k =0; k <=n1; k++) // 每 一 列 
{ 
val =cvRandReal (&rng) * 2-1.; // 权重 随机 值 ,为 [-1, +1] 
w[k* n2 +j] =val; // 为 权重 赋值 
s +=fabs (val); // 累加 和 ,采用 一 范 数 
} 
if( i<layer sizes->cols -1) // 如 果 不 是 输出 层 
{ 
s -1./(s -fabs (val)); // 归 一 化 系数 
for( k =0; k <=n1; k++) // 对 每 一 列 
w[k*n2+j)] * =s; // 权重 归 一 化 


w[nl* n2 +j] *=Gx (-1+j*2./n2); // 偏 置 的 初始 值 


} 


9.7.4 训练 函数 


反 向 传播 算法 每 次 迭代 分 为 两 步 : 先 用 现 有 参数 进行 正 向 传播 ,计算 出 每 个 样本 的 损 
失 函 数值 ,同时 记 住 了 每 一 层 的 输出 值 以 及 激活 函数 的 导数 值 ;第 二 阶段 是 反 向 传播 ,从 输 
出 层 开始 ,计算 误差 项 ,根据 误差 项 计算 对 权重 、 偏 置 的 导数 ,再 更 新 权重 。 在 这 里 考虑 了 动 
量 项 ,但 没有 正则 化 项 。 

训练 的 接口 函数 为 train, 首 先 会 初始 化 训练 数据 ,然后 根据 用 户 指定 的 参数 调用 不 同 
的 反 向 传播 训练 函数 。_inputs 为 训练 样本 集 的 特征 向 量 数组 ,每 一 行为 一 个 样本 ; 
_outputs 为 训练 样本 集 的 输出 响应 数组 ,每 一 行为 一 个 样本 ;_sample_weights 为 每 个 样本 
的 权重 数组 , 仅 用 于 反 向 传播 算法 ;_sample_idx 为 样本 索引 数组 ,如 果 设 置 ,只 考虑 这 些 样 
Ж; params 为 训练 参数 。 代 码 如 下 : 


int CvANN_MLP::train(const CvMat* inputs, const CvMat* outputs, 
const CvMat* sample weights, const CvMat* sample idx, 
CvANN MLP TrainParams params, int flags ) 


const int MAX ITER - 1000; // 最 大 和 迭代 次 数 
const double DEFAULT EPSILON =FLT EPSILON; // #8 ВИН 
double * sw=0; 

CvVectors x0, u; 


int iter =-1; 


А 


y, 
жож NTRAMA (165 





x0.data.ptr =u.data.ptr =0; 

CV FUNCNAME ( "CvANN MLP::train"); 

. BEGIN ; 

int max iter; 

double epsilon; 

params = params; 

// 初始 化 训练 数据 

CV_CALL( prepare to train( inputs, outputs, sample weights, 
.Sample idx, &x0, &u, &sw, flags )); 

// 初始 化 权重 参数 

if( ! (flags & UPDATE WEIGHTS) ) 
init weights () 7 

// 最 大 迭代 次 数值 

max iter =params.term_crit.type & CV_TERMCRIT_ITER ? 
params.term_crit.max_iter : MAX ITER; 

max iter =MIN( max iter, MAX ITER ); 

max iter =МАХ ( max iter, 1); 

// ПЁ AUGE, T 35 R A I ИЙ Ж e 31 (8 0926 Jy 3C ML, 8 C LE 

epsilon -params.term crit.type & CV TERMCRIT EPS ?params.term crit.epsilon : 
DEFAULT EPSILON; 

epsilon -MAX(epsilon, DBL EPSILON); 

params.term crit.type =CV_TERMCRIT ITER *CV TERMCRIT EPS; 

params.term crit.max iter -max iter; 

params.term crit.epsilon -epsilon; 

// 根据 指定 的 训练 算法 参数 调用 不 同 的 训练 算法 函数 

if( params.train_method ==CvANN_MLP TrainParams::BACKPROP ) 

{ 
// 单 样本 的 反 向 传播 算法 
CV CALL( iter =train_backprop( х0, u, sw )); 

) 

else 

(o 批量 反 向 传播 算法 
CV_CALL( iter =train_rprop( x0, u, sw)); 

} 

_END ; 

cvFree ( &x0.data.ptr ); 

cvFree( &u.data.ptr ); 

cvFree( &sw ); 

return iter; 


} 


函数 train_backprop 实现 单个 样本 的 随机 反 向 传播 算法 ,每 次 计算 损失 函数 值 和 参数 
梯度 值 时 只 使 用 一 个 样本 。x0 为 训练 样本 的 特征 向 量 集合 ;u 为 训练 样本 的 输出 向 量 集 
合 , 即 标签 值 ;sw 为 训练 样本 的 权重 。 

完整 的 训练 流程 如 下 。 
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循环 ,直到 达到 最 大 迭代 次 数 
循环 ,对 每 个 样本 
如 果 每 个 样本 都 用 完 一 遍 了 , 则 进行 随机 洗 牌 
对 输入 向 量 进行 归 一 化 
对 当前 样本 进行 正 向 传播 ,在 这 个 过 程 中 记 住 激活 函数 值 . 激 活 函 数 导 数值 
反 向 传播 : 
更 新 权重 
将 误差 传播 到 前 一 层 
结束 循环 
结束 循环 


下 面 来 看 train backprop 函数 的 实现 代码 : 


int CvANN MLP::train backprop (CvVectors x0, CvVectors u, const double * sw) 
{ 
CvMat* dw =0; // dw 用 于 存储 权重 的 梯度 
CvMat * buf =0; 
// zx 为 每 一 层 的 输出 值 ,af 为 每 一 层 输出 值 的 导数 值 
double * *x-0, * * df =0; 
CvMat* _idx =0; 
int iter =-1, count =x0.count; // count 为 训练 样本 数 
CV_FUNCNAME ( "CvANN MLP::train backprop" ); 
. BEGIN ; 
int i, j, k, ivcount, ovcount, l count, total -0, max iter; 
double * buf ptr; 
double prev E -DBL MAX* 0.5, E =0, epsilon; 
max iter -params.term crit.max iter * count; 
epsilon -params.term crit.epsilon* count; 
1 count -layer sizes-»cols; // 神经 网 络 的 层 数 
ivcount =layer_sizes->data.i[0]; // 输入 层 神 经 元 个 数 
ovcount -layer sizes-»data.i[l count-1]; // 输出 层 神 经 元 个 数 
// 计算 所 有 层 神经 元 的 总 个 数 ,注意 ,每 一 层 加 了 一 个 1, totoal 为 总 个 数 


for( i =0; i <1 count; i++) // 计算 所 有 权重 的 个 数 ,包括 偏 置 
total +=layer_sizes->data.i[i] +1; 

// dw 是 权重 的 梯度 

CV CALL( dw =cvCreateMat ( wbuf->rows, wbuf-»cols, wbuf-»type )); 

cvZero( dw); // 梯度 初始 化 为 0 

// buf 用 于 存放 临时 数据 


CV CALL( buf =cvCreateMat ( 1, (total +max_count) * 2, CV 64F )); 
CV CALL( idx =cvCreateMat ( 1, count, CV 32SCl )); 
// idx 存放 样本 的 编号 ,用 于 后 面 的 随机 洗 牌 采样 
for( i =0; i<count; i++) 
.idx-»data.i[i] =i; 
CV CALL( x = (double * * )cvAlloc( total * 2* sizeof (x[0]) )); 
df =x +total; 
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buf ptr =buf->data.db; 


for(j-0; j«1 count; j++) // 计算 每 层 数据 的 存放 位 置 

{ 
x[j] =buf_ptr; // xD] 存 储 第 j 层 神 经 元 的 输出 
df[j] =x[j] *layer sizes-»data.i[j]; // 9f[j] 存 储 第 j 层 的 梯度 
buf ptr += (df[j] -x[3]) * 2; // 下 一 层 的 开始 


) 


// 反 向 传播 过 程 ,最 大 迭代 次 数 为 max iter,E 为 损失 函数 的 值 
// 下 面 是 整个 反 向 传播 的 大 循环 , iter 为 当前 迭代 次 数 ,循环 内 是 一 次 完整 的 迭代 
// 直到 达到 最 大 和 迭代 次 数 max_iter, 退 出 循环 


for( iter =0; iter <max_iter; iter++) 


{ 


// 把 所 有 样本 都 用 过 一 遍 之 后 ,进行 一 次 随机 洗 牌 , 即 每 隔 count 次 进行 一 次 随机 洗 牌 
// idx 为 每 次 选取 的 一 个 样本 ,count 为 训练 样本 数 
int idx =iter %count; 
double * w -weights[0]; // 输入 层 的 权重 
double sweight =sw ? count * sw[idx] : 1.; 
// _w 为 权重 ,df 为 激活 函数 的 导数 值 ，dw 为 权重 的 梯度 
CvMat w, dw, hdr1, hdr2, ghdr1, ghdr2, df; 
CvMat *xl-&hdrl, * х2 =&hdr2, * gradl =&ghdrl, * grad2 =&ghdr2, * temp; 
// 如 果 是 新 一 轮 的 开始 , 即 所 有 样本 都 用 了 一 遍 , 则 进行 随机 洗 牌 
if ( idx ==0) // iter $count =0 
{ 
// 如 果 达 到 指定 精度 ,算法 终止 ,退出 循环 
// prev_E 是 上 次 的 损失 函数 值 ,E 是 当前 的 损失 函数 值 
if( fabs (ргеу Е -E) <epsilon ) 


break; 
prev_E =E; // 更 新 之 前 的 损失 函数 值 
E=0; // 更 新 当前 的 损失 函数 值 为 0 
for(i=0; i <count; i++) // 先 随机 洗 牌 ,交换 两 个 样本 
{ 

int tt; 


// 选择 [0, count -1] 的 一 个 样本 

j = (unsigned) cvRandInt (&rng) $count; 

// 选择 [0, count -1] 的 一 个 样本 

k = (unsigned)cvRandInt (&rng) $count; 

// 交换 这 两 个 样本 

CV SWAP( idx-»data.i[j], _idx->data.i[k], tt); 


} 
// 使 用 第 idx 个 样本 做 反 向 传播 
idx = idx-»data.i[idx]; 
if( x0.type ==CV_32F ) 
{ 
const float * x0data -x0.data.fl[idx]; // 该 样本 的 特征 向 量 
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// 对 于 输入 层 的 每 个 神经 元 计算 输出 ,这 里 只 是 进行 缩放 归 一 化 
for( j =0; j <ivcount; j++) 
x[0] [j] =x0data[j] * w[j * 2] +w[j * 2 +1]; 
} 
else 
{ 
// 与 上 面 的 代码 相同 ,只 不 过 是 处 理 双 精度 数 
const double * x0data =x0.data.db[idx]; 
for( j =0; j <ivcount; j++) 
x[0][j] =x0data[j] * w[* 2] *w[3* 2*1]; 
H 
cvInitMatHeader( х1, 1, ivcount, CV 64F, x[0] ); // ivcount 为 输入 层 神经 元 数 
// 正 向 传播 过 程 ,计算 每 一 层 的 输出 y=f(wx +b) ,以 及 梯度 f (их +b) 
// ylil=w* x[i-1], x[il-f(y[i]), df(i]-f' (yfil) 
Ғог( і =1; і <1 count; i++) 
i 
// xi ÈR 1 AAA Л, хо 是 第 工 层 的 临时 输出 
cvInitMatHeader( x2, 1, layer sizes-»data.i[i], CV 64F, x[i] ); 
// wOSEUR,s1* s2 的 矩阵 
cvInitMatHeader( & м, х1- > со15, x2-»cols, CV 64F, weights[i] ); 
// 计算 x2 =x1* м 
CVGEMM( x1, & w, 1, 0, 0, x2); 
_df = * х2; // df- df*x2 
.df.data.db -df[i]; 
// 计算 激活 函数 的 梯度 ,注意 这 里 加 上 的 偏 置 值 
// 注意 ,这 里 同时 算出 了 激活 函数 值 和 其 导数 值 ,在 反 向 传播 时 还 有 用 
// _w.data.db * w.rows* w.cols 为 偏 置 数值 的 起 始 位 置 
// x2=f(x2+b) _df =f! (x2 +b) 
calc activ func deriv( x2, & df, w.data.db + w.rows* w.cols ); 
CV SWAP( х1, x2, temp ); // 交换 输入 和 输出 ,进入 下 一 层 
1 
// gradi 是 1Xn 的 矩阵 ,即行 向 量 
cvInitMatHeader( grad1, 1, ovcount, CV 64F, buf ptr); 
* grad2 - * gradl; 
grad2-»data.db -buf ptr *max count; 
w -weights[l count*1]; // 输出 层 的 权重 ,实际 上 是 归 一 化 系数 
// 下 面 这 段 循环 的 作用 是 对 输出 层 的 值 做 归 一 化 
if(u.type ==CV_32F ) 
{ // 对 于 单 精度 浮 点 数 
const float * udata =u.data.fl [idx]; 
for ( k =0; К <ovcount; k++) // ovcount 为 输出 层 的 神经 元 个 数 
{ 
// 计算 输出 层 误差 , 先 对 输出 值 归 一 化 
double t =udata[k] * w[k * 2] +w[k* 2+1] -x[1_count-1] [k]; 
gradl->data.db[k] =tx sweight; // 输出 层 的 梯度 
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E+=t*t; // 误差 累计 平方 和 


else 
{ // 对 于 双 精 度 浮 点 数 
const double* udata =u.data.db[idx]; 
for( k =0; k <ovcount; k++) 
t 
double t =udata[k] * w[k * 2] *w[k* 2+1] -x[1_count-1] [k]; 
gradl-»data.db[k] =t * sweight; 


E--t*t; 
) 
J 
E * -sweight; // 损失 函数 值 还 要 乘 上 样本 权重 
// 反 向 传播 过 程 , 计 算 梯度 值 , 更 新 权重 
for( i =1_count-1; i >0; i--) // 从 输出 层 开 始 


t 
// nl 为 前 一 层 的 神经 元 个 数 ,n2 为 本 层 神经 元 个 数 
int nl =layer_sizes->data.i[i-1], n2 -layer sizes-»data.i[i]; 
// dt ЖТ PR СЧ RUE , EE E , BJ 4 T ТА] HE 
cvInitMatHeader( & df, 1, n2, CV_64F, df [i] ); 
// gradl 为 误差 项 ,计算 
cvMul( gradl, & df, grad1 ); 
cvInitMatHeader( & w, п1+1, n2, CV 64F, weights[i] ); 
cvInitMatHeader( & dw, п1+1, n2, CV 64F, dw-»data.db + (weights[i] - 
weights[0]) ); 
cvInitMatHeader( x1, п1+1, 1, CV 64F, x[i-1] ); 
x[i-1] [nl] =1.; 
// dw-a * х1 * gradl +b * dw, 计算 权重 的 更 新 量 
// 在 这 里 考虑 了 动量 项 
СУСЕММ ( х1, gradl, params.bp dw scale, & dw, params.bp moment scale, 
& dw); 
// w- м + dw, ERRE 
cvAdd( & w, & dw, & м); 
if(i»1l) // 如 果 不 是 输入 层 , 传 播 误 差 
{ 
grad2->cols =п1; 
_w.rows =п1; 
// i grad2 =grad1 * w^T,Hl 
CVGEMM( grad1, & w, 1, 0, 0, grad2, CV GEMM B Т); 
} 
CV SWAP( grad1, grad2, temp ); 


} 


iter /=count; 
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} 


—END__, 

cvReleaseMat ( &dw ); 
cvReleaseMat ( &buf ); 
cvReleaseMat ( & idx ); 
cvFree ( &x ); 


return iter; // PR RL iB Inl UL 


函数 train_rprop 实现 RPROP 批量 反 向 传播 算法 ,这 是 标准 反 向 传播 算法 的 一 个 变 
种 。 在 正 向 传播 时 ,利用 所 有 样本 计算 误差 函数 值 。 反 向 传播 时 ,算法 分 两 种 情况 更 新 权 
重 ,如 果 两 次 梯度 符号 相反 , 则 抑制 参数 变化 ;如 果 两 次 梯度 符号 相同 , 则 增强 参数 变化 。 具 





体 的 公式 为 
HAs. ЭЕ ъй 
Iw, 
Aw, = JL 
+4, 5 «0 
д, 
其 中 ,A, 定义 为 
T bei Iw Iw =p 
A, = +... JL 91, 
y Ans dui. du 0 
Aci. 其 他 


其 中 ,常数 六 二 1,0 过 六 去 1, 它 们 是 人 工 设 定 的 参数 。 下 面 来 看 函数 的 实现 。x0 为 训练 样 
本 的 特征 向 量 集合 ,u 为 训练 样本 的 输出 向 量 集合 ,sw 为 训练 样本 的 权重 。 函 数 代码 如 下 : 


int CvANN_MLP::train_rprop(CvVectors x0, CvVectors u, const double * sw) 


{ 


const int max buf size =1 <<16; 

CvMat* dw =07 

CvMat* dEdw =0; // 权重 的 偏 导数 

CvMat* prev dEdw sign =0; // 上 一 次 权重 偏 导数 的 符号 
CvMat * buf =0; 


// 同样 地 ,x 为 每 层 的 输出 值 ,af 为 每 层 的 输出 值 的 导数 

double * * x-0, * *df -0; 

int iter =-1, count =x0.count; 

CV FUNCNAME ( "CvANN MLP::train"); 

. BEGIN ; 

int i, ivcount, ovcount, l count, total =0, max iter, buf sz, dcount0; 
double * buf ptr; 

double prev E -DBL MAX* 0.5, epsilon; // 上 一 次 的 损失 函数 值 
double dw plus, dw minus, dw min, dw max; 

double inv count; 

max iter =params.term crit.max iter; // 最 大 和 迭代 次 数 


epsilon =params.term crit.epsilon; 
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dw plus =рагатѕ.гр dw plus; 
dw minus =рагатѕ.гр dw minus; 
dw min =params.rp dw min; 
dw max -params.rp dw max; 
1 count -layer sizes-»cols; // 网 络 的 层 数 
ivcount =layer_sizes->data.i[0]; // 输入 向 量 的 维 数 , 即 输入 层 神经 元 数 
ovcount -layer sizes-»data.i[l count-1]; // 输出 向 量 的 维 数 , 即 输出 层 神 经 元 数 
// 计算 缓存 空间 大 小 
for(i-0;i«l count; i++) 
total +=1ауег sizes-»data.i[i]; 
// exi RR E 
CV CALL( dw =cvCreateMat ( wbuf-» rows, wbuf-»cols, wbuf-»type )); 
cvSet( dw, cvScalarAll(params.rp dw0) ); 
// 创建 权重 梯度 矩阵 
CV CALL( dEdw =cvCreateMat ( wbuf-» rows, wbuf->cols, wbuf->type )); 
cvZero ( dEdw ); 
// 上 一 次 迭代 时 权重 梯度 的 符号 矩阵 
CV CALL( prev dEdw sign =cvCreateMat ( wbuf->rows, wbuf->cols, CV_8SC1 )); 
cvZero( prev dEdw sign); 
inv count -1./count; // 训练 样本 数 
dcount0 =max buf size/(2* total); 
dcount0 =MAX( dcount0, 1); 
dcount0 =MIN( dcount0, count ); 
buf sz =dcount0* (total +max_count) * 2; 
CV CALL( buf =cvCreateMat ( 1, buf sz, CV 64F )); 
CV CALL( x = (double * * )cvAlloc( total * 2* sizeof(x[0]) )); 
df =x total; 
buf ptr -buf-»data.db; 
// 计算 各 层 缓冲 区 的 指针 
Ғог( і =0; і <1 count; i++) 
{ 
х[1] =buf_ptr; 
df[i] =x[i] +layer_sizes->data.i[i] * dcount0; 
buf ptr += (df [i] -x[i]) * 2; 
} 


// 33k IRR 
for( iter =0; iter «max iter; iter++) 
{ 


int nl, n2, j, k; 

double E =0; // 损失 函数 初 值 为 0 

// 首先 ,对 所 有 样本 进行 正 向 传播 和 反 向 传播 ,计算 权重 梯度 矩阵 авам 

// 在 这 里 ,对 0~ count 的 样本 进行 分 块 并 行 处 理 

cv::parallel for (cv::Range(0, count),rprop loop(this, weights, count, ivcount, 
&x0, 1 count, layer sizes, ovcount, max count, &u, sw, inv count, dEdw, 


dcount0, &E, buf sz) 
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); 
// 更 新 权重 ,从 输出 层 开始 , 逐 层 更 新 权重 
Ғог(і =1; і <1 count; i++) 
{ 
// nl 是 权重 矩阵 的 行 数 ,n2 是 权重 矩阵 的 列 数 
nl =layer_sizes->data.i[i-1]; n2 -layer sizes-»data.i[i]; 
// 对 权重 矩阵 的 每 一 行 
for( k =0; k <=n1; k++) 
{ 
double * wk =weights[i]+k*n2; 
size_t delta =wk -weights[0]; 
double * dwk =dw->data.db +delta; 
double * dEdwk =dEdw- >data.db +delta; 
char * prevEk = (char * ) (prev_dEdw_sign->data.ptr +delta); 
// 对 权重 和 矩阵 的 每 一 列 
for( j =0; j <n2; j++) 
{ 
double Eval -dEdwk[j]; 
double dval -dwk[j]; 
double wval -wk[j]; 
int s -CV SIGN (Eval); 
int ss -prevEk[j] * s; // 两 次 迭代 的 偏 导数 同 号 
if(ss>0) 
{ 
dval * =dw_plus; 
dval =MIN( dval, dw_max ); 
dwk [5] =dval; 
wk[j] =wval +dval * s; 
} 
else if( ss <0) // 两 次 迭代 的 偏 导数 异 号 
{ 
dval * =dw_minus; 
dval =МАХ ( dval, dw min); 
prevEk[j] =0; 
dwk[j] =ауа1; 
wk[j] =wva1 *dval* s; 
) 
else 
{ 
prevEk[j] = (char)s; 
wk [5] =wval *dval* s; 
Ë 
dEdwk[j] =0.; 
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} 


// 如 果 损 失 函 数值 下 降 不 充分 ,退出 循环 
if( fabs (prev_E -E) <epsilon ) 


break; 
prev_E =E; 
E-0; 
) 
. END ; 


cvReleaseMat ( &dw ) ; 
cvReleaseMat ( &dEdw ) ; 
cvReleaseMat( &prev dEdw sign); 
cvReleaseMat ( &buf ); 

cvFree( &x ); 

return iter; 


) 


ParallelLoopBody 实现 并 行 的 正 向 传播 和 反 向 传播 ,但 不 更 新 权重 的 值 ,只 计算 权重 的 
偏 导数 。 下 面 来 看 rprop_loop 的 代码 : 


struct rprop_loop : cv::ParallelLoopBody { 
rprop loop(const CvANN MLP* point, double* * & weights, int& count, 
int& ivcount, CvVectors* _x0,int& 1 count, CvMat* & layer sizes, 
int& ovcount, int& max count, CvVectors* ц, const double * & sw, 
double& inv count, CvMat* & dEdw, int& dcount0, double* E, int buf sz) 


point = point; 
weights = weights; 


count = count; 


ivcount - ivcount; // 输入 向 量 的 维 数 
х0 =_х0; // 输入 向 量 

1 count- 1 count; // 网 络 的 层 数 
layer sizes = layer sizes; // 各 层 大 小 
ovcount =_ovcount; // 输出 向 量 的 维 数 
max count =_max_count; 

u=_u; 

зм =_sw; 


inv_count =_inv_count; 


dEdw = dEdw; 
dcount0 = dcount0; 
= E; 


buf sz = buf sz; 

} 

const CvANN MLP* point; 

// 因为 每 次 迭代 要 用 多 个 样本 ,因此 要 保存 每 个 样本 在 网 络 每 一 层 的 梯度 值 
double* * weights; 


int count; 
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int ivcount; 
CvVectors* х0; 
int 1_count; // 网 络 的 层 数 
CvMat* layer sizes; // 各 层 大 小 
int ovcount; 
int max_count; 
CvVectors* и; 
const double * sw; 
double inv_count; 
CvMat* dEdw; 
int dcount0; 
double * E; 
int buf sz; 
// 并 行 计算 ,完成 正 向 传播 和 反 向 传播 , range 指明 了 函数 处 理 的 样本 的 编号 范围 
void operator () ( const cv::Range& range ) const 
{ 
double * buf ptr; 
double * * x =0; 
double * * df =0; 
int total =0; 
// 首先 计算 出 缓冲 区 的 大 小 
for(int i =0; і <1 count; i++) 
total +=layer_sizes->data.i[i]; 
CvMat * buf; 
buf =cvCreateMat ( 1, buf sz, CV_64F ); 
x = (double * * )cvAlloc( total * 2* sizeof(x[0]) ); 
df =x +total; 
buf_ptr =buf->data.db; 
// 计算 各 层 的 x, ae 在 缓冲 区 中 的 位 置 
for(int і =0; i <1_count; i++) 
{ 
x[i] =buf_ptr; 
df[i] =x[i] +layer_sizes->data.i[i] * dcount0; 
buf ptr += (df[i] -x[i]) * 2; 
} 
// 对 range.start ~range.end 的 样本 进行 处 理 
for(int si =range.start; si <range.end; si++) 
t 
// 把 样本 均 分 成 dcount0 等 分 ,本 次 只 处 理 其 中 的 一 等 分 
if (si %dcount0 !=0) continue; 
int nl, n2, k; 
double * w; 
CvMat w, _dEdw, hdr1, hdr2, ghdr1, ghdr2, _df; 
CvMat * х1, * x2, * gradl, * grad2, * temp; 


int dcount =07 
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dcount =MIN (count -si, dcount0 ); 
w =weights [0]; 

gradl -&ghdrl; grad? =&ghdr2; 
xl-&hdrl; х2 =&hdr2; 

// 对 输入 向 量 进 行 预 处 理 , 即 归 一 化 
if( x0->type ==CV_32F ) 


{ 
for(int i =0; i <dcount; i++) 
t 
const float * x0data =x0->data.fl[si+i]; 
double * xdata =х[0]+ і * ivcount; 
for(int j =0; j <ivcount; j++) 
xdata[j] =x0data[j] * w[j * 2] +w[j * 2+1]; 
} 
} 
else 


for(int i =0; i <dcount; i++) 
{ 
const double * x0data =x0->data.db[si+i]; 
double * xdata =x[0]+i* ivcount; 
for(int j =0; j «ivcount; j++) 
xdata[j] =x0data[j] * w[j * 2] *w[j* 2*1]; 
) 
cvInitMatHeader( x1, dcount, ivcount, CV_64F, x[0] ); 
// 正 向 传播 ,计算 y[i]=wx x[i-1], xlil=f(ylil), df[i]=f'(y[i]) 
for(int і =1; i <1 count; i++) 


{ 
// 初始 化 x 和 WW 和 矩阵 
cvInitMatHeader( x2, dcount, layer sizes-»data.i[i], CV 64F, x[i] ); 
cvInitMatHeader( & w, x1-»cols, x2-»cols, CV 64F, weights[i] ); 
CVGEMM( xl, & м, 1, 0, 0, x2); ILE m xm 
_df = * х2; 
_df.data.db =df [i]; 
point->calc_activ_func_deriv( x2, & df, w.data.db + 
_w.rows* w.cols ); // 计算 激活 函数 和 导数 
CV_SWAP( x1, x2, temp ); 
} 


cvInitMatHeader( gradl, dcount, ovcount, CV 64F, buf ptr); 
w -weights[l count*1]; 
grad2-»data.db -buf ptr *max count * dcount; 
// 计算 损失 函数 值 
if(u->type ==CV 32F ) 
// 对 于 每 个 样本 
for(int i =0; i «dcount; i++) 


{ 
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const float * udata =u->data.fl[si+i]; 
const double * xdata =х[1 count-1] +1 * ovcount; 
double * gdata -gradl-»data.db +i * ovcount; 
double sweight =sw ?sw[si+i] : inv count, El =0; 
// 对 于 输出 向 量 的 每 一 维 
for(int j =0; j <ovcount; j++) 
i 
// 累加 损失 函数 值 
double t =udata[j] * w[j * 2] *w[j* 2+1] -xdata[j]; 
gdata[j] =t * sweight; 
El +=t* t; 
} 
* E +=sweight * El; 


for (int i =0; i <dcount; i++) 


const double * udata =u->data.db[si+i]; 
const double * xdata =x[l_count-1] +i * ovcount; 
double * gdata =gradl->data.db +i * ovcount; 
double sweight =sw ?sw[si+i] : inv count, El =0; 
for(int j =0; j «ovcount; j++) 
{ 
double t =udata[j] * w[j * 2] +w[j * 2*1] -xdata[j]; 
gdata[j] =t * sweight; 
El +=t*t; 
} 
* Е +=sweight * El; 
} 
static су: :Mutex mutex; 
// 反 向 传播 过 程 , 在 这 里 只 计算 出 了 权重 的 梯度 项 ,并 没有 执行 权重 
// 更 新 ,权重 更 新 是 在 train rprop 函数 中 做 的 
for(int і =l_count-1; i >0; i--) 
{ 
nl =layer_sizes->data.i[i-1]; n2 -layer sizes-»data.i[i]; 
cvInitMatHeader( & df, dcount, n2, CV 64F, df[i] ); 
// 计算 本 层 的 误差 项 
cvMul( grad1, & df, grad1 ); 
{ 
// 这 段 代码 要 保证 多 线程 互 斥 ,因为 线程 之 间 要 共享 权重 梯度 矩阵 
cv::AutoLock lock (mutex); 
cvInitMatHeader( & dEdw, nl, n2, CV 64F, dEdw->data.db+ 
(weights [i]-weights[0]) ); 
cvInitMatHeader( x1, dcount, nl, CV 64F, x[i-1] ); 


// 更 新 权重 梯度 矩阵 
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CVGEMM( x1, gradl, 1, & dEdw, 1, & dEdw, CV GEMM A Т); 
// 更 新 акам 的 偏 置 部 分 
for( k =0; k <dcount; К++) 
{ 
double * dst =_dEdw.data.db +n1 * n2; 
const double * src -gradl-»data.db +k * n2; 
for(int j =0; j <n2; j++) 
dst [j] +=src[j]; 
) 
if (i >1) 
cvInitMatHeader( & w, nl, n2, CV 64F, weights[i] ); 
) 
cvInitMatHeader ( grad2, dcount, nl, CV 64F, grad2->data.db ); 
// 反 向 传播 误差 到 前 一 层 
if(i»1) 
cvGEMM( gradl, & м, 1, 0, 0, grad2, CV GEMM B Т); 
CV SWAP( gradl, grad2, temp ); 


) 
cvFree(&x); 


cvReleaseMat ( &buf ); 


9.75 预测 函数 


预测 时 ,给 定 输入 向 量 ,循环 计算 每 一 层 的 变换 输出 ,输出 层 的 结果 就 是 最 终 预 测 结果 。 
需要 强调 的 是 ,对 输入 向 量 和 输出 向 量 都 要 做 归 一 化 缩放 。 

predict 实现 了 预测 功能 。 在 这 里 ，inputs 为 待 预 测 的 特征 向 量 ,_outputs 为 输出 的 预 
测 值 。 代 码 如 下 : 


float CvANN_MLP::predict (const CvMat* inputs, CvMat* outputs) const 
{ 
CV FUNCNAME ( "CvANN MLP::predict" ); 
. BEGIN ; 
double * buf; 
int i, j, n, dn =0, 1 count, dn0, buf sz, min buf sz; 
if( !layer sizes) 
CV ERROR( CV StsError, "The network has not been initialized" ); 
if( CV IS MAT( inputs) || !CV IS MAT( outputs) || 
!CV ARE TYPES EQ( inputs, outputs) || 
(CV МАТ TYPE( inputs-»type) !=CV_32FC1 && 
CV MAT TYPE( inputs-»type) !-CV 64FCl) || 
 inputs-»rows != outputs-» rows ) 
CV ERROR( CV StsBadArg, "Both input and output must be floating-point 


matrices of the same type and have the same number of rows" ); 
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if( inputs-»cols !=1ауег sizes->data.i[0] ) 
CV_ERROR ( CV_StsBadSize, "input matrix must have the same number of 
columns as " "the number of neurons in the input layer"); 
if( outputs-»cols !-layer sizes-»data.i[layer sizes-»cols -1]) 
CV ERROR( CV StsBadSize, "output matrix must have the same number of 
columns as " "the number of neurons in the output layer"); 
n-dn0- inputs-»rows; // 样本 数 ,每 一 行为 一 个 样本 的 特征 向 量 
// 下 面 的 代码 用 于 分 配 临时 的 存储 空间 
min buf sz -2* max count; 
buf sz -n* min buf sz; 
if(buf sz »max buf sz ) 
{ 
dn0 =max buf sz/min buf sz; 
апо =MAX( dn0, 1); 
buf sz=dn0*min buf sz; 
) 
buf = (double * )cvStackAlloc( buf 52 * sizeof (buf[0]) ); 
l count =layer_sizes->cols; 
// 依次 处 理 每 个 样本 
for( i =0; i <n; і +=dn ) 
{ 
CvMat һаг[2], _w, * layer_in =&hdr[0], * layer_out =&һаг[1], * temp; 
dn =MIN( dn0, n -i ); 
// 获取 样本 的 特征 向 量 , 存 储 在 layer іп 中 
cvGetRows( inputs, layer in, i, i *dn ); 
cvInitMatHeader( layer out, dn, layer in-»cols, CV 64F, buf ); 
// 对 特征 向 量 进行 缩放 
scale_input( layer_in, layer_out ); 
CV_SWAP( layer_in, layer_out, temp ); 
// 循环 计算 每 一 层 的 输出 
for( j =1; j «1 count; j++) 
( 
double * data =buf + (j&1 ?max_count * dn0 : 0); 
int cols -layer sizes-»data.i[j]; 
cvInitMatHeader( layer out, dn, cols, CV 64F, data ); 
cvInitMatHeader( & w, layer in-»cols, layer out-»cols, CV 64F, 
weights[j] ); 
// w A58 3 层 的 权重 矩阵 
// layer out -layer in* w 
CVGEMM( layer in, & м, 1, 0, 0, layer out ); 
// 计算 激活 函数 ,这 个 函数 只 计算 激活 函数 ,不 计算 导数 
calc activ func( layer out, w.data.db + w.rows* w.cols ); 
// 交换 输入 与 输出 


CV_SWAP( layer in, layer out, temp ); 
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cvGetRows( outputs, layer out, i, i *dn ); 
// 对 输出 向 量 进行 缩放 


scale output ( layer in, layer out ); 


END ; 


return 0.f; 


9.8 应 用 


神经 网 络 作为 一 个 通用 的 模型 , 既 适 用 于 分 类 问题 ,也 适用 于 回归 问题 。 
的 各 个 问题 中 都 有 成 功 的 应 用 ,典型 的 包括 人 脸 检 测 Bo Л a ge, 
OCRE ,手写 字符 识别 [sss6 ,自然 语言 处 理 C7 等 问题 。 

下 面 介绍 神经 网 络 在 图 像 识 别 中 的 应 用 。 在 这 里 使 用 MNIST 手写 数字 数据 集 , 这 个 
数据 集 有 10 类 阿拉 伯 数 字 的 手写 图 像 ,尺寸 为 28 像素 X28 像素 ,其 中 有 60 000 张 图 像 作 
为 训练 样本 ,10 000 张 图 像 作 为 测试 样本 。 数 据 集 的 下 载 地 址 为 

http: 

在 这 个 官网 上 还 给 出 
可 参阅 官网 上 的 说 明 。 


它 在 模式 识别 
光学 字符 识别 


//yann. lecun. com/exdb/mnist 
了 各 种 算法 的 错误 率 , 以 便于 比较 。 关 于 这 个 数据 集 更 多 的 信息 
图 9. 6 是 从 数据 库 中 截取 的 部 分 数字 的 图 像 
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9.6 MNIST 中 数字 的 图 像 (来 自 MNIST 的 官网 ) 
我 们 直接 将 图 像 按 行 拼接 形成 特征 向 量 ,这 样 特征 向 量 为 784 维 ,当然 ,也 可 以 按照 列 


进行 拼接 。 为 此 ,神经 网 络 的 输入 层 设计 为 784 维 , 由 于 像素 值 的 取 值 范围 为 [0,255] ,一般 
要 进行 归 一 化 ,统一 缩放 到 [0,1]。 因 为 有 10 个 类 ,因此 ,网 络 的 输出 层 设置 为 10 维 , 训 练 
样本 的 标签 向 量 采用 向 量 编码 模式 ,在 前 面 已 经 介绍 过 了 。 
fs er Es B URBE .每 层 神经 元 的 个 数 我 们 可 以 自己 调节 ,2 一 
结果 选择 一 个 最 好 的 网 络 结构 。 使 用 OpenCV 的 神经 网 络 类 或 
TensorFlow) ,可 以 很 容易 地 完成 这 个 实验 。 






可 以 进行 尝试 ,根据 分 类 
者 其 他 开源 库 ( 如 Caffe 和 
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第 10 章 
支持 向 量 机 


支持 向 量 机 由 Vapnik SEA ЖЕН?! ,在 出 现 后 的 二 十 多 年 里 它 是 最 有 影响 力 的 机 器 学 
习 算法 之 一 。 在 深度 学 习 技术 出 现 之 前 ,使 用 高 斯 核 C(RBF ) 的 支持 向 量 机 在 很 多 分 类 问题 
上 一 度 取得 了 最 好 的 结果 。 支 持 向 量 机 不 仅 可 以 用 于 分 类 问题 ,还 可 以 用 于 回归 问题 。 它 
具有 泛 化 性 能 好 、 适 合 小 样本 和 高 维特 征 等 优点 ,被 广泛 应 用 于 各 种 实际 问题 。 


10.1 线性 分 类 器 


线性 函数 计算 简单 ,训练 时 易于 求解 ,是 机 器 学 习 领 域 被 研究 得 最 深入 的 模型 之 一 。 支 
持 向 量 机 是 最 大 化 分 类 间隔 的 线性 分 类 器 ,如 果 使 用 核 函 数 , 可 以 解决 非 线 性 问题 。 
10.1.1 线性 分 类 器 概述 

线性 分 类 器 是 п 维 空间 中 的 分 类 超 平面 ,将 空间 切 分 成 两 部 分 。 对 于 二 维 空间 ,是 一 条 
直线 ;对 于 三 维 空间 ,是 一 个 平面 ; 超 平面 是 在 更 高 维 空间 的 推广 。 它 的 方程 为 

wx+b=0 

其 中 ,x 为 输入 向 量 ;w EE fit s 是 偏 置 项 ,这 两 个 参数 通过 训练 得 到 。 对 于 一 个 样本 ， 
如 果 满 足 





wx+b>0 
l 则 被 判定 为 正 样本 ,否则 被 判定 为 负 样 本 。 图 10. 1 
是 一 个 线性 分 类 器 对 空间 进行 分 割 的 示意 图 ,在 这 
里 是 二 维 平面 。 
在 图 10. 1 中 ,直线 将 二 维 平面 分 成 了 两 部 分 , 落 
在 直线 左边 的 点 被 判定 成 第 一 类 , 落 在 直线 右边 的 点 
被 判定 成 第 二 类 。 线 性 分 类 器 的 判别 函数 可 以 写成 
sgn(w'x + b) 
给 定 一 个 样本 的 向 量 , 代 入 上 面 的 函数 ,就 可 
^ 以 得 到 它 的 类 别 值 圭 1。 这 种 线性 模型 也 被 称 为 感 
知 器 模型 ,由 Rosenblatt 在 1958 年 提出 。 











10.1 二 维 空间 中 的 线性 分 类 器 


10.1.2 分 类 间隔 


一 般 情况 下 ,给 定 一 组 训练 样本 可 以 得 到 不 止 一 个 可 行 的 线性 分 类 器 ,图 10. 2 就 是 一 
FAF 
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(а) 线性 分 类 器 1 Е (b) 线性 分 类 器 2 
图 10.2 两 个 不 同 的 线性 分 类 器 


在 图 10. 2 中 两 条 直线 都 可 以 将 两 类 样本 分 开 。 问 题 是 : 在 多 个 可 行 的 线性 分 类 器 中 ， 
什么 样 的 分 类 器 是 好 的 ? 从 直观 上 看 ,为 了 得 到 好 的 泛 化 性 能 ,分 类 平面 应 该 不 偏向 于 任何 
一 类 ,并且 离 两 个 类 的 样本 都 尽 可 能 远 。 这 种 最 大 化 分 类 间隔 的 目标 就 是 支持 向 量 机 的 基 
本 思想 。 


10.2 线性 可 分 的 问题 


首先 来 看 样本 线性 可 分 时 的 情况 , 即 可 以 通过 一 个 超 平面 将 两 类 样本 分 开 。 
10.2.1 原 问题 


支持 向 量 机 的 目标 是 寻找 一 个 分 类 超 平面 , 它 不 仅 能 正确 地 分 类 每 一 个 样本 ,并 且 要 使 
得 每 一 类 样本 中 距离 超 平面 最 近 的 样本 到 超 平面 的 距离 尽 可 能 远 。 假 设 训练 样本 集 有 / 个 
样本 ,特征 向 量 x; 是 n 维 向 量 ,类 别 标签 y; 取 值 为 十 1 或 者 一 1, 分 别 对 应 正 样 本 和 负 样 本 。 
支持 向 量 机 为 这 些 样本 寻找 一 个 最 优 分 类 超 平面 ,其 方程 为 
wx+b=0 
首先 要 保证 每 个 样本 都 被 正确 分 类 。 对 于 正 样本 有 
wxtb>o0 


对 于 负 样 本 有 





wx+b<0 
于 正 样 本 的 类 别 标 签 为 十 1, 负 样本 的 类 别 标签 为 一 1, 可 以 统一 写成 如 下 不 等 式 约束 : 
yi(wixi+b)0 
第 二 个 要 求 是 超 平面 离 两 类 样本 的 距离 要 尽 可 能 大 。 根 据点 到 平面 的 距离 公式 ,每 个 
样本 离 分 类 超 平面 的 距离 为 

















| wx, +6 | 
I wl 


其 中 , | wl 是 向 量 的 L2 范 数 。 上 面 的 超 平面 方程 有 宛 余 ,将 方程 两 边 都 乘 以 不 等 于 0 的 
常数 ,还 是 同一 个 超 平面 ,利用 这 个 特点 可 以 简化 求解 的 问题 。 对 w 和 2 加 上 如 下 约束 : 


min, wrx, +b| =1 


d= 


А 
184) (BHA SA 


可 以 消 掉 这 个 宛 余 ,同时 简化 点 到 超 平面 距离 的 计算 公式 。 这 样 对 分 类 超 平面 的 约束 变 成 
yilwx; +b) >1 
这 是 上 面 那个 不 等 式 约束 的 加 强 版 。 分 类 超 平面 与 两 类 样本 之 间 的 间隔 为 


d(w.b) =miny,,y,--1d (w,b;x;) + min, ,y=1d (Ww,0b;xi) 











А | wx; +5 | . |w'x;, + b| 
mins ,y,=-1 二 大 有 у= 
dd ll w Il ae lw [| 
= PoP MPs 1 97 tb [ming а | нт D 
= 2 
Iw 
目标 是 使 得 这 个 间隔 最 大 化 ,这 等 价 于 最 小 化 下 面 的 目标 函数 ， 
+I wl: 
加 上 前 面 定义 的 约束 条 件 之 后 ,求解 的 优化 问题 可 以 写成 
min Таты 


yix; +b) 221 
目标 函数 的 Hessian 矩阵 是 n Jr n [EAR Ig I, Z Je p hi IE ЛЕ ЖН (А. Р. H EF PA ЖЛЕ" 
格 凸 函数 。 可 行 域 是 由 线性 不 等 式 围 成 的 区 域 , 是 一 个 凸 集 。 因 此 ,这 个 优化 问题 是 一 个 凸 
优化 问题 。 由 于 假设 数据 是 线性 可 分 的 ,因此 ,一 定 存在 w fl p 使 得 不 等 式 约束 严格 满足 ， 
根据 Slater 条 件 强 对 偶 成 立 。 事 实 上 ,如果 w 和 4b 是 一 个 可 行 解 , 即 : 
wx+b>1 
则 2w 和 20 也 是 可 行 解 , 且 : 
2wrx + 2Ь ;> 2 ;> 1 
l 可 以 将 该 问题 转换 为 对 偶 问 题 求解 。 目 标 函 数 
有 下 界 ,显然 有 : 


Iw» >0 


并 且 可 行 域 不 是 空 集 ,因此 ,函数 的 最 小 值 一 定 
存在 ,由 于 目标 函数 是 严格 凸 函数 ,所 以 解 唯一 。 
图 10.3 是 最 大 间隔 分 类 超 平面 示意 图 。 

在 图 10.3 中 ,红色 和 蓝 色 ( 见 彩 插 ) 样 本 都 
有 2 个 离 分 类 直线 最 近 。 把 同一 类 型 的 这 些 最 
近 样 本 连接 起 来 .形成 两 条 平行 的 直线 ,分 类 直 
线 位 于 这 两 条 线 的 中 间 位 置 。 











图 10.3 最 大 化 分 类 间隔 


10.2.2 XHB [8] 
上 面 的 优化 问题 带 有 大 量 不 等 式 约束 ,不 容易 求解 ,可 以 用 拉 格 朗 日 对 偶 将 其 转化 成 对 
偶 间 题 。 为 上 面 的 优化 问题 构造 拉 格 朗 日 函数 : 


1 
LOw.b.a ) = ww > a: (у (wx: +b) — 1) 
i=l 


А 
тА 
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AUR ALE a: 220. 10.2 节 已 经 证 明 原 问题 满足 Slater 条 件 , 强 对 偶 成 立 , 原 问题 与 对 偶 问 
题 有 相同 的 最 优 解 ; 
Miny, max,L (w.b.a )= max, min,,L (w.b.a ) 
这 里 我 们 求解 对 偶 问 题 , 先 固定 住 拉 格 朗 日 乘 子 a ,调整 w 和 0, 使 得 拉 格 朗 日 函数 取 
极 小 值 。 把 a 看 成 常数 ,对 w 和 4 求 偏 导数 并 令 它 们 为 0, 得 到 如 下 方程 组 : 


从 而 解 得 


将 上 面 两 个 解 代入 拉 格 朗 日 函数 消 掉 w Ab: 


1 1 
六 Ww 一 D a (у (wixi+6)—1) =» У) (ayw x ауф — ai) 
i=l 


i=l 
Ë 1 1 
-iww- > оу" x; 一 >, aiyib + Уа 
i=l i a 


1 1 1 
=twtw— we M Oy X, 一 >) ау: + b» а; 
i=l i=l i=l 


一 一 去 (> аук!) (X ajy jx; ) + > а; 
接 下 来 调整 乘 子 变量 a ,使 得 目标 函数 取 极 大 值 : 
1 £ 1 
max, — +> >, ай)у‹у)хтх) + >, а 


3x 5 fr РИМИ F ШЙ РЕЖ: 


约束 条 件 为 


Day: =0 
与 原 问题 相 比 有 了 很 大 的 简化 。 至 于 这 个 问题 怎么 求解 ,会 在 后 面 讲述 。 求 出 & 后 ,可 以 根 
据 它 计 算 W: 


w= Soya 
参数 0 的 计算 方法 会 在 后 面 说 明 。 把 w 的 值 带 入 超 平面 方程 ,可 以 得 到 分 类 判别 函数 为 


А 


186; #755 


£ 
sgn ( Saiyixtx + b) 
i=1 


b 的 计算 方法 将 在 10. 8. 1 节 说 明 。 不 为 0 的 a 对 应 的 训练 样本 称 为 支持 向 量 , 这 就 是 


支持 向 量 机 这 一 名 字 的 来 历 。 图 10.4 是 支持 向 量 的 示意 图 。 


为 便于 理解 ,下 面 用 一 个 例子 来 说 明 。 开 源 支持 向 量 机 库 libsvm 自 带 可 视 化 工具 
svm-toy, 可 以 在 libsvm 官网 下 载 。 对 于 一 个 训练 样本 集 ,该 程序 将 训练 得 到 的 支持 向 量 机 
分 类 超 平面 的 结果 显示 出 来 。 首 先 创建 一 个 文本 文件 ,如 train. txt, 打 开 文件 ,输入 线性 可 





分 的 样本 集 , 在 这 里 特征 向 量 是 二 维 的 ,可 以 看 作 平 面 上 的 点 ,两 个 分 量 的 范 和 上 


每 行为 一 个 样本 


1 1:0.1 2:0.1 

1 1:0.12 210.09 
1 1;0.23 2,0.11 
1 1:0.14 2;0.17 
2 1:0.7 210.7 

2 1:0. 65 210.68 
2 140.88 210.91 
2 110.77 20.81 
2 1:0.95 2:0.83 
2 1:10.6 | 210.7 





目 都 为 0 一 1 : 


。 其 中 第 一 列 是 样本 的 类 别 标签 ,这 里 有 两 类 ,分 别 为 1 和 2。 接 下 来 


是 样本 的 特征 向 量 ,是 二 维 向 量 , 分 别 用 “特征 编号 :特征 值 ” 表 示 。 例 如 ,1:0. 1 表示 第 一 个 
特征 分 量 为 0.1,2:0. 1 表示 第 二 特 特征 分 量 为 0.1, 特 征 分 量 之 间 用 空格 或 者 tab 符 隔 开 。 
svm-toy 可 以 设置 训练 参数 ,包括 核 函数 类 型 . 核 函 数 参 数 、 和 迭 代 次 数 等 ,现在 这 些 参 数 都 使 


用 默认 的 值 。 









对 于 上 面 的 样本 集 , 训 练 得 到 的 分 类 超 平面 如 图 10.5 所 示 。 





b=+)/ w!x+b=0 
p 9 Тр] 


whet 
#020 Уд 





这 里 的 4 


10.4 支持 向 量 示意 图 











ies jb 





图 10.5 线性 可 分 的 支持 向 量 机 示意 图 


E 标 系 左 上 角 是 原点 ,横向 是 zz 坐标 ,纵向 是 y 坐标 。 在 图 10. 5 中 ,每 个 点 处 的 
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颜色 代表 对 该 点 进行 分 类 的 结果 。 两 种 颜色 的 训练 样本 都 被 正确 分 类 ,分 类 超 平面 确实 是 
一 条 直线 ,这 条 直线 离 两 个 类 最 近 的 样本 的 距离 是 相等 的 。 


10.3 线性 不 可 分 的 问题 


线性 可 分 的 支持 向 量 机 不 具有 太 多 的 实用 价值 ,因为 在 现实 应 用 中 样本 一 般 都 不 是 线 
性 可 分 的 , 接 下 来 对 它 进行 扩展 ,得 到 能 够 处 理 线 性 不 可 分 问题 的 支持 向 量 机 。 


10.3.1 原 问题 


通过 使 用 松弛 变量 和 和 无 罚 因 子 对 违反 不 等 式 约束 的 样本 进行 惩罚 ,可 以 得 到 如 下 最 优 
化 问题 : 


1 
тіп iv" + ЄЎ, & 
i=l 


y: (wx: +b) >1—& 
& 20, i=1,2,--,1 
其 中 ,& 是 松弛 变量 ,如 果 它 不 为 0, 表示 样本 违反 了 不 等 式 约束 条 件 ;C 为 惩罚 因子 ,是 人 
工 设 定 的 大 于 0 的 参数 ,用 来 对 违反 不 等 式 约束 条 件 的 样本 进行 惩罚 。 
前 面 已 经 证 明 目 标 函 数 的 前 半 部 分 是 凸 函 数 ,后 半 部 分 是 线性 函数 ,显然 也 是 凸 函 数 ， 
两 个 凸 函 数 的 非 负 线 性 组 合 还 是 凸 函数 。 上 面 优化 问题 的 不 等 式 约 东 都 是 线性 约束 ,构成 
的 可 行 域 显然 是 凸 集 。 因 此 ,该 优化 问题 是 凸 优化 问题 。 
上 述 问 题 是 满足 Slater 条 件 的 。 如 果 令 w= 二 0.5 二 0,5 三 2, 则 有 
yi(wixi + b) o>1-§& 1—2 1 
不 等 式 条 件 严格 满足 ,因此 强 对 偶 条 件 成 立 , 原 问题 和 对 偶 问 题 有 相同 的 最 优 解 。 
10.3. 2 节 同 样 将 该 问题 转化 为 对 偶 问 题 。 


10.3.2 ”对偶 问题 


首先 将 原 问 题 的 等 式 和 不 等 式 约束 方程 写成 标准 形式 : 
yi (Wx: +b) >1—&>-— (y; (wx, +6) -—14+6) <0 
& > 0=> —&, < 0 
然后 构造 拉 格 朗 日 函数 : 

















1 


1 # 
ла £48) = wtw СУ) &— У) а (у: (wha +5) —1+&)— DRE 
= Ç ici 


i=1 


其 中 ,a Rp 是 拉 格 朗 日 乘 子 。 首 先 固定 住 乘 子 变量 c 和 8 ,对 wb€ 求 偏 导 数 并 令 它 们 为 0， 
得 到 如 下 方程 组 : 


д} _ 
Эк 7? 
VaL = 0 
У = 0 


解 得 


А 
188) BESSER 


1 
Уау: = 0 
і=1 


а +8, = С 


w= S os 
将 上 面 的 解 代入 拉 格 朗 日 函数 中 .得 到 关于 a 和 8 的 函数 : 


1 


1 1 
+" wtc>) &— > а: (y; (W"x, +b) —1+&) — > B, 
i=1 


i ici 


LO.b.a ..8) = 


1 


1 1 1 
умт СУ) а 2)8&— 2) a& — >) а, (у, (x +) —1) 


i=1 i=1 i=1 i=1 























1 1 
ww 2)(С—а,—Д)& — >) (ym x + ауф — a 


i=] 1 一 1 
1 1 1 
-iwvw- M» aiyiw X; 一 b» ауф + 29 ai 
i=l i=1 
1 
-ivw- ww > ai 
i=1 
1 1 
== zW w + Уа 


ir » aia jyy; x xX; 十 > в 


i=l j= 


接 下 来 调整 乘 子 变量 een sas 
max, — is Yaaro! x; x. 


i=1 j= 


由 于 а +R=C IFA 6,20. 9 оС. 3x fr im F de ИГА: 
D аазугуух7х, 一 22m 


i=l j=1 


Qs aC 


2 =@ 
与 线性 可 分 的 对 偶 问题 相 比 ,唯一 的 区 别 是 多 了 不 等 式 约束 a; 三 C, 这 是 乘 子 变量 的 上 界 。 
将 w 的 值 带 入 超 平面 方程 ,得 到 分 类 决策 函数 为 


sgn ( > ухх +b) 
这 和 线性 可 分 是 一 样 的 。 为 了 简化 表述 ， ШАШ @ .其 元 素 为 
05 = угуухїх; 
对 偶 问 题 可 以 写成 矩阵 和 向 量 形式 : 


min, E a^ Qa — e'a 


0 <a, < C 


到 
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у'а= 0 


其 中 ,e 是 分 量 全 为 1 的 向 量 ;y 是 样本 的 类 别 标签 向 量 。 可 以 证 明 @ 是 半 正 定 矩 阵 , 这 个 矩 
阵 可 以 写成 一 个 矩阵 和 其 自身 转 置 的 乘积 : 
0O-XEXX 
矩阵 X 为 所 有 样本 的 特征 向 量 分 别 乘 以 该 样本 的 标签 值 组 成 的 矩阵 : 
X = [yixisyoxe ixi 

对 于 任意 非 0 向 量 x 有 
0 三 
因此 ,矩阵 @ 半 正 定 , 它 就 是 目标 函数 的 Hessian 和 矩阵 ,目标 函数 是 凸 函 数 。 上 面 问题 的 等 
式 和 不 等 式 约束 条 件 都 是 线性 的 ,可 行 域 是 凸 集 , 故 对 偶 问题 也 是 凸 优化 问题 。 

在 最 优点 处 必须 满足 KKT 条 件 , 将 其 应 用 于 原 问 题 , 对 于 原 问题 中 的 两 组 不 等 式 约 
束 ,必须 满足 





a; (yi (Wix, +b) —1+68&) = 0, ¿=1,2,--,1 
BE —0, i=1,2,---,1 
对 于 第 一 个 方程 ,如 果 a > 0, WTA y; (wTx; +b) —-1+6,=0, Bl 
yi(w'x, 十 0) =1-& 
由 于 三 0, 因 此 ,必定 有 
yi (wixit+b)<1l 
再 看 第 二 种 情况 。 如 果 a; 二 0, 则 对 y; (wrxi 十 0) 一 1 十 和 的 值 没有 约束 。 由 于 有 atp 
=C 的 约 东 ,因此 ,B= 二 C ;又 因为 Bë, =0 的 限制 ,如 果 及 之 0, 则 必须 有 和 =0。 由 于 原 问 题 
中 有 约束 条 件 yi (wl x; +b) 21 — & ii 和 一 0, 因 此 有 
yi(wix,+b)> 1 
对 于 а>0 的 情况 ,又 可 以 细 分 为 a СС Ма =С. ШЖ a <C.H FA а +В, =C 的 约 
RK BULA 有 二 0, 因 为 有 3&=0 的 约束 ,因此 ==0, 不 等 式 约束 y, (wx, +b) Z1 — & EH 
у: (юх: HD) Zl. В 0<а,<С 时 既 要 满足 y; (w x, +b)<1 又 要 满足 у, (wx tb)>1, 
因此 有 
yi (Wx; +6) = 1 
将 三 种 情况 合并 起 来 ,在 最 优点 处 ,所 有 的 样本 都 必须 要 满足 下 面 的 条 件 : 
a; = 0=y,(w'x, +b) > 1 
0 — a; < C2 y; (w'x; +b) = 1 
a; = C>y; (wx, +b) <1 
上 面 第 一 种 情况 对 应 的 是 自由 变量 ( 即 非 支 持 向 量 ) ,第 二 种 情况 对 应 的 是 支持 向 量 ,第 
三 种 情况 对 应 的 是 违反 不 等 式 约束 的 样本 。 在 后 面 的 求解 算法 中 ,会 应 用 此 条 件 来 选择 优 
化 变量 。 
同样 地 用 一 个 例子 对 线性 不 可 分 的 支持 向 量 机 进行 演示 ,这 个 例子 还 是 使 用 svm-toy 
程序 。 训 练 数 据 集 如 下 : 
1 1:0.1  2;0.1 
2 1:0.12 2,0.09 
1 1.0.23. 2:0.11 


(2 
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1 1:0.14 2:0.17 
2450.7 - 20.7 

2 1:0.65 210.68 

1 1:0.88 20.91 

2.140127 240,81 

2 1:0.95 210.83 

So DO - 230.7 

运行 结果 如 图 10.6 所 示 。 

EE =a) 




















图 10.6 ”线性 不 可 分 支持 向 量 机 的 一 个 例子 


从 图 10.6 可 以 看 出 分 类 超 平面 还 是 一 条 直线 ,两 个 类 各 有 一 个 样本 被 错 分 。 
10.4 RS SHH 


虽然 加 入 松弛 变量 和 惩罚 因子 之 后 可 以 处 理 线性 不 可 分 问题 ,但 支持 向 量 机 还 是 一 个 
线性 分 类 器 ,只 是 允许 错 分 样本 的 存在 。 本 节 要 介绍 的 核 映射 使 得 支持 向 量 机 成 为 非 线性 
分 类 器 ,决策 边界 不 再 是 线性 的 超 平面 ,而 可 以 是 形状 非常 复杂 的 曲面 。 

如 果 样 本 线性 不 可 分 ,可 以 对 特征 向 量 进行 映射 将 它 转化 到 更 高 维 的 空间 ,使 得 在 该 空 
间 中 线性 可 分 ,这 种 方法 在 机 器 学 习 中 被 称 为 核 技 巧 中 。 核 映射 % 将 特征 向 量变 换 到 更 高 
维 的 空间 : 

z= ф(х) 
在 对 偶 问 题 中 计算 的 是 两 个 样本 向 量 之 间 的 内 积 , 映 射 后 的 向 量 在 对 偶 问 题 中 为 
212; = $ (x,)T #(x;) 

直接 计算 这 个 映射 效率 太 低 , 而 且 不 容易 构造 映射 函数 。 如 果 映 射 函数 选取 得 当 , 存 在 

函数 ,使 得 下 面 等 式 成 立 


= 
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К (xix;) = K (хї,х;) = $ GOT $c) 


这 样 只 须 先 对 向 量 做 内 积 , 然 后 用 函数 K 进行 变换 ,这 等 价 于 先 对 向 量 做 核 映射 ,然后 
再 做 内 积 , 这 将 能 有 效 地 简化 问题 的 求解 。 在 这 里 我 们 看 到 了 求解 对 偶 问 题 的 另外 一 个 好 
处 ,对 偶 问题 中 出 现 的 是 样本 特征 向 量 之 间 的 内 积 ,而 核 函 数 刚好 作用 于 这 种 内 积 ,替代 对 
特征 向 量 的 核 映 射 。 满 足 上 面条 件 的 函数 称 为 核 函 数 ,常用 的 核 函数 与 它们 的 计算 公式 如 
# 10.1 所 示 。 


表 10.1 各 种 核 函 数 与 它们 的 计算 公式 

















BRR 计算 公式 
线性 核 К‹(х,,ху)=х]х, 
多 项 式 核 KG; ,x;) = OxIx; +b) 
Дет] Ж РА CB / Pš Wr Ж KG; ху) —expC —Y || x, —x; ll 
sigmoid 核 K(x; ,x;) —tanh (yx? x; +b) 


核 函数 的 精妙 之 处 在 于 不 用 对 特征 向 量 做 核 映 射 , 而 是 直接 对 特征 向 量 的 内 积 进行 变 
换 , 这 种 变换 却 等 价 于 先 对 特征 向 量 做 核 映 射 然 后 做 内 积 。 

需要 注意 的 是 ,并 不 是 任何 函数 都 可 以 用 来 作为 核 函 数 ,必须 满足 一 定 的 条 件 , 即 
Mercer 条 件 。 

Mercer 条 件 指出 : 一 个 对 称 函 数 K(x,y) 是 核 函数 的 条 件 是 对 任意 的 有 限 个 样本 的 样 
本 集 , 核 矩阵 半 正 定 。 核 矩阵 的 元 素 是 由 样本 集中 任意 两 个 样本 的 内 积 构造 的 一 个 数 , 即 

Ky = К(х;.х;) 

核 是 机 器 学 习 里 常用 的 一 种 技巧 , 它 还 被 用 于 支持 向 量 机 之 外 的 其 他 机 器 学 习 算 法 中 ， 
其 目的 就 是 将 特征 向 量 映射 到 另外 一 个 空间 中 ,使 得 问题 能 被 更 有 效 地 处 理 。 为 向 量 加 上 
核 映 射 后 ,要 求解 的 对 偶 问题 变 为 


i 1 


min, +> > aayy Cx)T $x;) 一 Ma 
jm i=l 


iml j=1 


Osa; «C 


1 


1 
аа;у;у;К (хїх;)— >) а 
i=1 


1 j=1 


Уау; = 0 
最 后 得 到 的 分 类 判别 函数 为 
sgn (之 aiyik (xx) +b) 
与 不 用 核 映 射 相 比 ,只 是 求解 的 目标 函数 、 最 后 的 判定 函数 对 特征 向 量 的 内 积 做 了 核 函 


А 
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数 变 换 。 预 测 时 的 时 间 复 杂 度 为 O(n7) , 当 训练 样本 很 多 、 支 持 向 量 的 个 数 很 大 时 ,速度 是 


一 个 问题 。 


下 面 我 们 看 第 三 个 实际 例子 ,使 用 高 斯 核 解 决 线性 不 可 分 问题 。 训 练 样本 集 为 


l 1:0.1 — 240.1 
1 1:0.9 20.1 
1 1:0. 15 210.9 
1 1:0.9 2:0.9 
2 1:0.5 210.5 
2 1:0. 45 2:0. 65 
2 1:0.66 2:0. 54 
2 1:0.58 2:0. 61 
2 1:0.6 2:0. 47 
2 1:0.42 2:0. 55 
设置 好 参数 之 后 , 运 





T svm-toy ,结果 如 图 10. 7 Aras. 
pnm 


= 





Ж} SVM Toy 











10.7 通过 核 映 射 解决 线性 不 可 分 问题 


从 图 10. 7 可 以 看 到 ,使 用 高 斯 核 的 支持 向 量 机 拟 合 出 的 分 界面 是 一 个 圆 ,这 证 明 使 用 
非 线性 核 的 支持 向 量 机 确实 可 以 解决 线性 不 可 分 问题 。 理 论 上 来 说 ,高 斯 核 将 向 量 映射 到 
无 穷 维 的 空间 (读者 如 果 对 这 个 概念 感 兴趣 ,可 以 阅读 泛 函 分 析 教 材 )。 

虽然 核 函 数 在 某 种 程度 上 解决 了 线性 不 可 分 问题 ,而 且 不 用 显 式 地 计算 核 映射 ,但 在 实 
际 应 用 中 ,如 果 训 练 样本 的 量 很 大 ,训练 得 到 的 模型 中 支持 向 量 的 数量 太 多 ,在 每 次 做 预测 
时 ,需要 计算 待 预 测 样本 与 每 个 支持 向 量 的 内 积 , 然 后 做 核 函数 变换 ,这 会 非常 耗 时 ,在 这 种 
情况 下 更 倾向 于 使 用 线性 支持 向 量 机 ,线性 支持 向 量 机 将 在 第 11 章 中 介绍 。 
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前 面 给 出 了 支持 向 量 机 的 对 偶 问 题 ,但 并 没有 说 明 怎 么 求解 此 问题 。 由 于 矩阵 Q 的 规 
模 和 样本 数 相等 , 当 训练 样本 数 很 大 时 ,这 个 矩阵 的 规模 很 大 ,求解 二 次 规划 问题 的 经 典 算 
法 将 会 面临 性 能 问题 。 本 节 介 绍 高 效 的 求解 算法 一 一 经 典 的 SMO (Sequential Minimal 
Optimization, 顺 序 最 小 优化 ) 算 法 外 。 前 面 已 经 推导 出 加 上 松弛 变量 和 核 函 数 后 的 对 侦 
问题 ; 


10.5 SMO 算法 


min, T a'Qa 一 era 


yla—0 
Oca; SKC, i-—l2.-l 
核 矩 阵 Q 为 对 称 半 正 定 矩 阵 ,在 后 面 会 给 出 证 明 ,其 元 素 为 
Q; = yiy;K (xi .x;) 
根据 核 函 数 的 定义 有 
K (хоху) = $ (x) (ху) 

ЖЖ | `F: TE ZE HH ÉZ ра ЖО) ЕЛИ It HE, WE BA 77 ik tj 10.3. 2 ЯН]. ЕШ H ЁРЕ RC 
Hessian Ж [ЛЕН ИЕ, РА k. H b PR i Iit РА 80. Эз E LA SE R A IR AR TT DAE РЕ 
的 ,构成 的 可 行 域 是 凸 集 。 因 此 ,上 面 的 最 优化 问题 是 凸 问题 。 为 了 表述 方便 ,定义 下 面 的 
ЖШ: 

Ky = K(xi,x;) 

EMR IGM Q 的 关系 为 

05 = yuy; K; 
定义 变量 


u; = yaa; K (x; ,x,) +b 


之 前 推导 过 , 原 问题 的 KKT 条 件 为 
а; = 0S yu; 2 1 
0<а < СӨуи; = 1 
a; = СӨ уш; < 1 
因为 目标 函数 是 凸 函数 ,如 果 有 至 少 一 个 a 满足 约束 条 件 且 目 标 函 数 在 可 行 域 有 下 界 ， 
则 该 问题 有 全 局 最 小 值 。 


10.5.1 求解 子 问题 


SMO 算法 由 Platt 等 人 提出 ,是 求解 支持 向 量 机 对 偶 问题 的 高 效 算 法 。 算 法 的 核心 思 
想 是 每 次 在 优化 变量 中 挑 出 两 个 分 量 进行 优化 .让 其 他 分 量 固定 ,这 样 能 保证 满足 等 式 约束 
条 件 , 这 是 一 种 分 治 法 的 思想 。 

下 面 先 给 出 这 两 个 变量 的 优化 问题 ( 称 为 子 问题 ) 的 求解 方法 。 假 设 选取 的 两 个 分 量 为 
a; Mla; ,其 他 分 量 都 固定 ( 即 当 成 常数 )。 由 于 yiy; 一 1,y;y; 一 1, 这 两 个 变量 的 目标 函数 可 


А 


机 器 学 习 与 应 用 
以 写成 
f(a.aj) = 到 Ka + iK + sK jaia; + yiwi: + yjvjaj; — a; — aj +c 

其 中 ,c 是 一 个 常数 。 前 面 的 二 次 项 很 容易 计算 出 来 ,一 次 项 要 复杂 一 些 , 其 中 : 

s= у:у; 

1 
vi = > уак Ka 
kel] 


这 里 的 a* у a 在 上 一 轮 和 迭代 后 的 值 。 上 面 的 目标 函数 是 一 个 二 元 二 次 函数 ,可 以 直接 
给 出 最 小 值 的 解析 解 (公式 解 )。 这 个 问题 的 约束 条 件 为 


0<a<C 
0 <a; < C 
£ 
уа: 十 yiaj —— > yar = € 
R=1 RFI RE; 


前 面 两 个 不 等 式 约 束 构成 一 个 矩形 ,最 后 的 等 式 约束 是 一 条 直线 。 由 于 y; 和 yj; 的 取 值 
只 能 为 十 1 或 者 一 1, 如 果 它们 异 号 ,等 式 约束 为 w 一 三 # 它 确定 的 可 行 域 是 一 条 斜率 为 1 
的 直线 段 ( 因 为 a; 和 a; 要 满足 约束 条 件 Oa; C 和 0<а, C) ,如 图 10.8 所 示 。 
图 10. 8 中 的 两 条 直线 分 别 对 应 于 & 取 正 负 值 的 情况 。 如 果 是 上 面 那 条 直线 , 则 a, 的 
取 值 范围 为 [一 6,C]; 如 果 是 下 面 的 那 条 直线 , 则 为 [0,C 一 习 。 对 于 这 两 种 情况 ,w 的 下 界 
和 上 界 可 以 统一 写成 如 下 形式 : 
L = max(0.aj — ai) 
H = min(C.C +a; = а) 
下 边界 是 直线 和 工 轴 交点 的 z 坐标 以 及 0 的 较 大 值 ; 上 边界 是 直线 和 直线 >= C 交点 
的 zx 坐标 和 C 的 较 小 值 。 
再 来 看 第 二 种 情况 。 如 果 y; 和 yj 同 号 ,等 式 约束 为 a; 十 a; — 6. 此 时 的 下 界 和 上 界 为 
L = тах(0.а; +a; — C) 
H = min(C.a; + ai) 
这 种 情况 如 图 10.9 所 示 。 
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10.8 可行 域 示意 图 (情况 1) 图 10.9 可 行 域 示意 图 (情况 2) 
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利用 这 两 个 变量 的 等 式 约束 条 件 , 可 以 消 掉 a;, 只 剩 下 一 个 变量 w .目标 函数 是 w 的 二 
次 函数 。 可 以 直接 求 得 这 个 二 次 函数 的 极 值 ,假设 不 考虑 约束 条 件 得 到 的 极 值 点 , 则 最 终 的 
极 值 点 为 


и» T ыры aed >H 
а" = ten clipped z. LS (ашшы <H 
L; алин А 


这 三 种 情况 如 图 10.10 Bros 。 


S(O) fa) fa) 


I 
l 1 
Lj Ho 0 Lj jH © L| jH % 
(a) 第 一 种 情况 (b) 第 二 种 情况 (с) 第 三 种 情况 
图 10.10 各 种 约束 情况 下 的 极 小 值 





图 10. 10(a) 是 抛物 线 的 最 小 值 点 在 [L,H] 中 ;图 10. 10(b) 是 抛物 线 的 最 小 值 点 大 于 
HBT 玉 ; 第 三 种 情况 是 小 于 工 , 被 截断 为 L. 
下 面 我 们 来 计算 不 考虑 截断 时 的 函数 极 值 。 为 了 避免 分 一 1 和 十 1 两 种 情况 ,将 上 面 的 
等 式 约束 两 边 同 乘 以 y; .有 
a; + ууа; = yit 
变形 后 得 到 
a; = уё— упууа, 
为 了 表述 简介 , 令 w= ye ME E ThE 77 RERA HERRAR id di o; A 


LK. (w — sa; )* + Куа FSK j (10 — sa; )а; + уго: (w — ѕа;) + ууоуа, 





(w — ѕа;) —a; t c 
对 o; 求 导 并 令 导数 为 0, 得 
K; Gw — ѕа;) C— s) + Kya; + sK (о — 25а;) — зу; + yjvj -s—1— 0 
而 SyiUi — YY jy iUi ууш; ,化 简 得 
(Ki T Kj —2K;)a; — swK; — swKj — yjvi + yu; +s—1=0 











即 








(K, + Kj —2K; )a; = sw (Ki + K; ) + yjvi — yjvj -1— s 
Ki w Aly WA. AF YY; =1. 化 简 得 
(Kis+K;—2Ki)a; = aj (Ka + K; —2K5) + y; (u; — u; + y; — уг) 





如 果 令 
7= Ki +K; — 2K; 
上 式 两 边 同 时 除 以 m FE 


ат" = aj + Ji саа 





А 
196; #50 


其 中 ,E; 二 uw 一 y:。 考 虑 前 面 推 导 过 的 约束 : 
H, ">Н 
"еюн = auem, | со" == H 
їз oP <b 
在 求 得 w 之 后 ,根据 等 式 约束 条 件 就 可 以 求 得 a; : 
ар" = a; + s (aj — аў" 
目标 函数 的 二 阶 导数 为 q. BI E B BE — Dr SEC > 0 JA Ifl PR HE H Pn PR ЖЛЕ РА ЖК. BO JF 
口 向 上 的 抛物 线 , 有 极 小 值 。 如 果 0. Sk у 0 该 怎么 处 理 ? 对 于 线性 核 或 正定 核 函 
数 ,由 于 矩阵 Kk 的 任意 一 个 上 述 子 问 题 对 应 的 二 阶 子 矩阵 半 正 定 ,必定 有 220, ТШ 
证 明 这 个 关于 两 个 变量 的 子 问题 的 目标 函数 是 凸 函数 ,只 需要 证 明 它 的 Hessian 矩阵 是 半 
正定 矩阵 。 这 两 个 变量 的 目标 函数 的 Hessian 为 
P el 
0; Q; 
与 10. 3. 2 节 证 明 整 个 对 偶 问题 的 Hessian 矩阵 正定 的 方法 相同 ,如 果 是 线性 核 ,这 个 矩阵 
也 可 以 写成 一 个 矩阵 和 它 的 转 置 的 乘积 形式 ， 
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ЖЕ A 为 训练 样本 特征 向 量 乘 上 类 别 标签 形成 的 和 矩阵。 显然 这 个 Hessian 矩阵 是 半 正 
定 的 ,因此 必定 有 y=0。 如 果 是 非 线 性 核 ,因为 核 函数 相当 于 对 两 个 核 映 射 之 后 的 向 量 做 
内 积 , 因 此 上 面 的 结论 同样 成 立 。 

无 论 本 次 迭代 时 а, 和 ww 的 初始 值 是 多 少 ,通过 上 面 的 子 问题 求解 算法 得 到 是 在 可 行 域 
里 的 最 小 值 ,因此 ,每 次 求解 更 新 这 两 个 变量 的 值 之 后 ,都 能 保证 目标 函数 值 小 于 或 者 等 于 
初始 值 , 即 函 数值 下 降 , 所 以 SMO 算法 能 保证 收敛 。 


10.5.2 ”优化 变量 的 选择 


上 面 已 经 解决 了 两 个 变量 问题 的 求解 , 接 下 来 说 明 怎 么 选择 这 两 个 变量 ,在 这 里 使 用 了 
启发 式 规则 。 第 一 个 变量 的 选择 方法 是 在 训练 样本 中 选取 违反 KKT 条 件 最 严重 的 那个 样 
本 。 在 10.3.2 节 中 推导 过 ,在 最 优点 处 训练 样本 是 否 满足 KKT 条 件 的 判 据 为 
a; = 0О©уш (x,) > 1 
0 — a; < CS yig(xi) = 1 
a; = СӨу ш (x; ) < 1 

其 中 ,g(x;) 定 义 为 


1 
g(x,) = УауууК Gi x) +b 


首先 遍历 所 有 满足 约束 条 件 0<a<C 的 样本 点 ,检查 它们 是 否 满足 KKT 条 件 。 如 果 
都 满足 KKT 条 件 , 则 遍历 整个 训练 样本 集 ,判断 它们 是 否 满足 KKT 条 件 , 直 到 找到 一 个 违 
反 ККТ 条 件 的 变量 a;。 找 到 这 个 变量 之 后 , 接 下 来 寻找 o; ,选择 的 标准 是 使 得 a; 有 足够 大 
的 变化 。 根 据 前 面 的 推导 ,a9* 依 赖 于 | Е, — Е, | 。 因 此 ,选择 使 得 |E; 一 E; | 最 大 的 a;。 由 于 
qi 已 经 确定 ,因此 E; 已 知 。 如 果 已 之 0, 则 选择 最 小 的 Е, ;否则 选择 最 大 的 E;. 


ТА 
$105 SHRM (197 


现在 我 们 总 结 支持 向 量 机 优化 问题 和 求解 方法 的 整个 推导 思路 ,分 为 以 下 几 个 关键 的 
步骤 。 


松弛 变量 
惩罚 因子 








线性 可 分 SVM 线性 不 可 分 SVM 


拉 格 朗 日 对 偶 对 偶 问题 


PER 非 线性 模型 
SMO 算法 
ШТ ТАШЫ 
最 优 解 

首先 用 松弛 变量 将 线性 可 分 的 支持 向 量 机 扩展 到 线性 不 可 分 的 支持 向 量 机 ;然后 用 拉 
格 朗 日 对 偶 将 原 问题 转换 问 对 偶 问 题 ; 接 下 来 通过 加 入 核 函 数 将 模型 转化 为 非 线性 模型 ,最 
后 用 SMO 算法 求解 对 偶 问题 ,这 里 包含 关键 的 两 部 分 , 工作 集 的 选择 依据 ККТ 条 件 , 子 
问题 的 求解 直接 采用 公式 解 计 算 二 次 函数 的 极 值 。 理 解 支持 向 量 机 的 关键 是 理解 拉 格 朗 日 
对 偶 和 KKT 条 件 。 


10.6 多 分 类 问题 


前 面 讲述 的 支持 向 量 机 只 能 解决 二 分 类 问题 。 对 于 多 分 类 问题 ,可 以 用 这 种 二 分 类 器 
的 组 合 来 解决 ,有 以 下 两 种 方案 。 

(1) 一 对 剩余 方案 。 对 于 有 个 类 的 分 类 问题 ,训练 & 个 二 分 类 器 。 训 练 时 第 i 个 分 
类 器 的 正 样本 是 第 i 类 样本 , 负 样 本 是 除 第 i 类 之 外 其 他 类 型 的 样本 ,这 个 分 类 器 的 作用 是 
判断 样本 是 否 属于 第 i 类 。 在 进行 分 类 时 ,对 于 待 预测 样本 ,用 每 个 分 类 器 计算 输出 值 , 取 
输出 值 最 大 的 那个 作为 预测 结果 。 

(2) 一 对 一 方案 。 如 果 有 & 个 类 ,训练 Ci 个 二 分 类 器 , 即 这 些 类 两 两 组 合 。 训 练 时 将 
第 i 类 作为 正 样 本 ,其 他 各 个 类 依次 作为 负 样 本 ,总 共有 k(k 一 1)/2 种 组 合 。 每 个 分 类 器 的 
作用 是 判断 样本 是 属于 第 i 类 还 是 第 7 类 。 对 样本 进行 分 类 时 采用 投票 的 方法 ,依次 用 每 
个 二 分 类 器 进行 预测 ,如 果 判 定 为 第 т 类 , 则 m 类 的 投票 数 加 1, 得 票 最 多 的 那个 类 作为 最 
终 的 判定 结果 。 

下 面 用 一 个 简单 的 例子 来 进行 说 明 ,我 们 要 对 3 个 类 进行 分 类 。 如 果 采 用 一 对 剩余 方 
案 , 则 训练 3 个 分 类 器 : 


svm: 1 ~ 2,3 
зуш;: 2~ 1.3 
svm;: 3 ~ 1.2 


第 1 个 分 类 器 在 训练 时 以 第 1 类 样本 作为 正 样本 ,另外 两 类 作为 负 样 本 ;第 2 个 分 类 器 
在 训练 时 以 第 2 类 样本 作为 正 样本 ,另外 两 类 作为 负 样 本 ;第 3 个 分 类 器 在 训练 时 以 第 3 类 
样本 作为 正 样本 ,另外 两 类 作为 负 样本 。 在 预测 时 ,输入 样本 特征 向 量 ,计算 每 个 模型 的 预 
测 函 数值 ,将 样本 判别 为 预测 值 最 大 的 那个 类 。 

如 果 采 用 一 对 一 方案 ,需要 训练 3 个 分 类 器 : 
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svmliz:1 一 2 
svmis:l—3 
svmz-3: 2 ~ 3 
在 训练 第 1 个 分 类 器 时 ,以 第 1 类 样本 作为 正 样本 ,第 2 类 样本 作为 负 样本 ;其 他 的 模 
型 以 此 类 推 。 在 预测 时 ,用 3 个 模型 对 输入 向 量 进行 预测 。 然 后 统计 投票 ,对 于 模型 
svmij ,如 果 预 测 值 为 十 1, 则 第 类 的 投票 加 1 ,否则 第 7 类 的 投票 加 1。 最 后 将 样本 判定 为 得 
票 最 多 的 那个 类 。 
除了 通过 二 分 类 器 的 组 合 来 构造 多 类 分 类 器 之 外 ,还 可 以 通过 直接 优化 多 类 分 类 的 目 
标 函 数 得 到 多 分 类 器 ,在 第 11 章 介绍 。 


10.7 实验 程序 


下 面 通过 实验 来 介绍 支持 向 量 机 的 训练 和 预测 (对 分 类 问题 ) ,程序 基于 libsvm E ff 
工具 程序 svm-train 和 svm-predict。 前 者 是 训练 程序 ,可 以 从 指定 格式 的 文件 中 读 取 训练 
样本 ,训练 模型 并 保存 到 指定 文件 中 ;后 者 是 预测 程序 ,可 以 从 模型 文件 中 载 人 模型 ,并 对 预 
测 样本 文件 中 的 样本 进行 预测 。 

首先 制作 训练 样本 文件 ,libsvm 要 求 训练 样本 文件 每 一 行为 一 个 训练 样本 ,必须 是 如 
下 格式 (与 svm-toy 要 求 的 格式 相同 ): 


类 别 标签 特征 编号 :特征 值 特征 编号 :特征 值 


其 中 ,类 别 标签 为 整数 ,如 果 是 多 类 分 类 ,从 1 开始 ,如 果 是 二 分 类 问题 ,一 般 设置 为 一 1 和 
十 1; 特 征 编号 为 整数 ,编号 从 1 开始 ;特征 值 为 实数 ,各 个 值 之 间 用 空格 进行 分 隔 。 
在 这 里 ,直接 从 libsvm 的 官网 下 载 测 试 数据 文件 ala, 下 载 地址 为 


https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/ 


它 包 括 训 练 样本 文件 ala 和 测试 样本 文件 ala.t。 用 文本 编辑 器 打开 ala 文件 ,可 以 看 
到 前 几 行 的 内 容 为 

一 13:111:114:1 19:1 39:1 42:1 55:1 64:1 67:1 73:1 75:1 76:1 80:1 83:1 

—1 3:1 6:1 17:1 27:1 35:1 40:1 57:1 63:1 69:1 73:1 74:1 76:1 81:1 103;1 

—1 4:1 6:1 15:1 21:1 35:1 40:1 57:1 63:1 67:1 73:1 74:1 77:1 80:1 83:1 

—1 5:1 6:1 15:1 22:1 36:1 41:1 47:1 66:1 67:1 72:1 74:1 76:1 80:1 83:1 

下 载 之 后 ,把 这 两 个 文件 复制 到 libsvm 的 Windows 目录 下 。 下 面 介 绍 svm-train. exe 
的 命令 行 参数 。 这 个 程序 的 命令 行 格 式 为 


svm-train [options] training set file [model file] 


其 中 ,[options] 为 可 选 参 数 , 接 下 来 会 详细 介绍 ;training_set_file 为 训练 样本 文件 名 ,包括 
文件 路 径 ;[model_file] 为 可 选 参 数 ,指定 训练 之 后 保存 SVM 模型 的 文件 名 ,如 果 不 带 这 个 
参数 , 则 不 保存 模型 到 文件 中 。 下 面 对 svm-train 的 [options] 参 数 进行 详细 介绍 。 

-s 为 支持 向 量 机 的 类 型 。0 为 C-SVC, 在 这 里 С 为 惩罚 因子 , 即 用 于 分 类 问题 ;1 为 w 
SVC, 也 是 用 于 分 类 问题 ;2 为 单 类 SVM;3 为 sSVR, 用 于 回归 问题 ;4 为 vSVR, 也 是 用 于 
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回归 问题 。 各 种 分 类 问题 都 支持 多 类 分 类 ,在 源 代码 分 析 中 将 详细 介绍 这 持 向 量 机 的 
类 型 。 用 于 分 类 问题 时 通常 将 这 个 参数 设置 为 0, 即 C-SVC。 

-t 为 核 函 数 类 型 。0 为 线性 核 ;1 为 多 项 式 核 ;2 为 径 向 基 函 数 核 , 即 高 斯 核 ; 3 为 
sigmoid E 34 为 自 定义 核 , 此 时 应 该 在 样本 文件 里 先 计 算 好 核 矩 阵 , 而 不 是 直接 存放 样本 的 
特征 向 量 。 如 果 不 考 虑 速度 问题 ,一 般 使 用 高 斯 核 , 从 而 有 更 高 的 分 类 精度 ,即将 这 个 参数 
设置 为 2。 

-d 为 核 函数 的 参数 4。 用 于 多 项 式 核 ,多 项 式 的 次 数 , 默 认 值 为 3。 

-g 为 核 函 数 参 数 Y。 用 于 多 项 式 核 、 高 斯 核 和 sigmoid 核 ,默认 值 为 1/”, 其 中 ”为 特征 
向 量 维 数 。 

-r 为 核 函 数 参数 。 它 是 0 次 项 系数 ,用 于 多 项 式 核 ,在 sigmoid 核 中 ,默认 值 为 0。 

-c 为 惩罚 因子 。 用 于 C-SVC、e-SVR 和 vSVR ,默认 值 为 1。 

-n 为 参数 v。 用 于 vSVC 、 单 类 SVM 和 vSVR ,默认 值 为 0. 5。 

p 为 参数 s。 用 于 e-SVR ,默认 值 为 0. 1。 

m 为 Cache 的 大 小 ,以 MB 为 单位 。 关 于 Cache, 在 源 代码 分 析 中 会 详细 介绍 , 它 用 于 
缓存 一 部 分 核 函 数 的 值 , 减 小 内 存 开销 。 

е 为 参数 &。 用 于 迭代 终止 的 判定 ,默认 值 为 0.001. 

-h 为 是 否 做 样本 缩减 。 默 认 值 为 1, 即 执行 样本 缩减 操作 。 

-b 为 是 否 估 计 概 率 值 。 关 于 概率 值 估计 ,在 后 面 的 源 代 码 分 析 中 会 详细 介绍 。 

wi 为 第 i 类 的 权重 。 

у 为 交叉 验证 参数 。 交 叉 验 证 的 折 数 ,如 果 设 置 为 大 于 0 的 数 n, 则 执行 n 折 交 叉 验 
证 ,交叉 验证 信息 会 在 训练 时 输出 到 屏幕 上 。 

输入 命令 行 : 





svm-train -s 0 -t 2 ala ala_model 


程序 运行 结果 如 图 10.11 所 示 。 





10.11 svm-train 的 运行 结果 


其 中 ,iter 为 SMO 算法 的 迭代 次 数 ,在 这 里 为 537;obj 为 目标 函数 值 ;rho 为 SVM 判 
定 函 数 中 的 -b,nSYV 为 支持 向 量 的 个 数 。 
打开 生成 的 模型 文件 ,可 看 到 如 下 内 容 ( 在 这 里 只 显示 了 部 分 内 容 ): 


svm type c_svc 
kernel type rbf 
gamma 0.00840336 
nr class 2 
total sv 754 

rho 0.628337 
label 1-1 


жч, 
(199) 


$ 


200) ees БЕ 


nr_sv 371 383 

SV 

1 5:1 11:1 15:1 32:1 39:1 40:1 52:1 63:1 67:1 73:1 74:1 76:1 78:1 83:1 
15:1 18:1 19:1 39:1 40:1 63:1 67:1 73:1 74:1 76:1 80:1 83:1 


模型 的 前 半 部 分 是 支持 向 量 机 的 参数 ,后 半 部 分 为 支持 向 量 。 在 后 面 的 源 代 码 分 析 中 ， 
将 详细 介绍 这 个 文件 的 格式 。 

接 下 来 对 训练 的 模型 进行 测试 ,这 里 使 用 的 测试 文件 是 ala. t。 预 测 程序 svm-predict 
的 命令 行 格式 为 

svm-predict [options] test file model file output file 

其 中 ,Loptions] 为 可 选 的 命令 行 参 数 ,下 面 进 行 详细 介绍 。 

-b, 是 否 进行 概率 输出 ,如 果 为 1 .输出 ,否则 不 输出 ,默认 值 为 0。 

test. file 为 测试 样本 集 数据 文件 ;model_file 为 支持 向 量 机 的 模型 文件 ;output_file 为 
输出 结果 文件 。 

输入 命令 行 : 


svm- predict ala.t ala model ala predict 


程序 运行 结果 如 图 10.12 所 示 。 


图 10.12 svm-predict 的 运行 结果 


在 屏幕 上 会 显示 出 分 类 准确 率 , 在 这 里 为 83.5864%。 打 开 预 测 结果 文件 ,会 看 到 对 每 
个 测试 样本 的 分 类 结果 。 

可 以 改变 支持 向 量 机 的 参数 和 训练 参数 ,包括 惩罚 因子 、 核 函数 的 类 型 以 及 核 函数 的 参 
数 , 观 察 使 用 不 同 参 数值 时 的 分 类 效果 , 感 兴趣 的 读者 可 以 自己 实现 。 


10.8 源 代码 分 析 
本 节 分 析 支 持 向 量 机 的 实现 。libsvmr 是 目前 影响 力 最 大 ,应 用 最 广 的 支持 向 量 机 库 ， 


由 林 智仁 教授 和 他 的 学 生 开发 。 它 使 用 C++ 语言 编写 ,并 提供 Java, Python, MATLAB 等 
语言 的 接口 。libsvm 实现 了 5 种 类 型 的 支持 向 量 机 ,用 于 分 类 和 回归 问题 。 它 们 分 别 


如 下 。 
C-SVC, 即 C-Support Vector Classification, 用 于 分 类 问题 ,这 就 是 前 面 讲 述 的 用 于 分 
类 问题 的 支持 向 量 机 ,是 源 代码 分 析 的 重点 。 


wSVC, 即 v-Support Vector Classification ,用 于 分 类 问题 ,另外 一 种 表述 的 支持 向 量 
机 ,不 使 用 惩罚 因子 ,而 是 使 用 另 一 个 变量 蔡 代 它 。 

one class SVM , 单 类 支持 向 量 机 ,用 于 估计 特征 向 量 的 分 布 。 

e-SVR. Hl e-Support Vector Regression ,用 于 回归 问题 。 

vSVR Bil v-Support Vector Regression ,用 于 回归 问题 。 
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限于 篇 幅 , 我 们 只 分 析 C-SVC. libsvm 支持 多 类 分 类 和 交叉 验证 ,并 且 可 以 输出 估算 
的 概率 值 。 多 类 分 类 问题 采用 的 是 一 对 一 的 方案 。 


10.8.1 求解 算法 


libsvm 对 C-SVC 的 求解 采用 了 SMO 算法 ,在 工作 集 的 选择 上 做 了 改进 ,利用 二 阶 导 
数 信息 加 快 算法 收敛 速度 ,我 们 将 在 后 面 详 细 介 绍 。 求 解 的 问题 可 以 写成 如 下 形式 : 
min, f(a) = Tata tpa 
ya=A 
Osa SC, t= 1,250 52 
接 下 来 介绍 具体 的 求解 算法 ,分 为 子 问题 求解 和 工作 集 选择 算法 两 部 分 ,工作 集 选择 算 
法 负责 选择 两 个 优化 变量 。 求 解 子 问题 的 流程 如 下 。 
CD 寻找 一 个 初始 可 行 解 a! ,一 般 初始 化 成 0 向 量 ,这 显然 满足 p'a —0 ,设置 人 一 1。 
(2) 如 果 a* 已 经 是 最 优点 ,停止 循环 。 否则 ,用 WSSI 算法 寻找 一 个 两 个 元 素 的 工作 集 
B= 二 {i,j)。 定 义 集合 N= 二 {1,2,…,L}\B, 即 除 掉 工作 集 之 外 的 其 他 变量 的 集合 ,a$h 和 a 是 
B 和 N 对 应 的 子 向 量 。 
(3) ШЖ a 三 Ki 十 Kj; 一 2K; 记 0, 求 解 如 下 关于 a; 和 aj 两 个 变量 的 子 问题 : 


Q; Q; i кт i 
[а alg o |l. |+» aeo И 


1 
EDI 
Oxo, aj «C 

уа: + ya; = A— ухах 
CD 否则 ,求解 如 下 子 问题 : 
Qi Q; | hs 
0, 0» 


SAE ( (ai — at)? + (a; — af )*) 


min, a > [а а;] | |+ (ps Quy ah)" [е |+ 
aj 


aj 





Oca oj KC 
yi; + уза; = А— yu ah 
(5) WES"! МЕЙЛ as SaN ,< 二 1, 返回 步 骤 (2) 。 
这 里 分 为 ау 20 和 ay <O 两 种 情况 ,前面 一 种 是 之 前 介绍 的 SMO 算法 处 理 的 。 如 果 
用 线性 核 可 能 会 出 现 a; — 0 的 情况 ,此 时 子 问题 的 目标 函数 退化 为 线性 函数 。 如 果 使 用 非 
正定 核 ( 如 sigmoid 核 ) ,可 能 会 出 现 а„<0 的 情况 。 
在 10.5. 2 节 中 介绍 了 用 启发 式 搜索 选择 工作 集 的 标准 ,这 通过 在 原 问 题 上 应 用 ККТ 
条 件 得 到 。 下 面 介 绍 libsvm 的 工作 集 选 择 算 法 ,这 里 使 用 了 二 阶 导数 信息 。 将 KKT 条 件 
应 用 于 对 偶 问 题 ,为 对 偶 问题 构造 拉 格 朗 日 乘 子 函 数 : 








1 1 
L(a Б.А ур) 1 аза ра (yf a= A) 4 Ph Gad a (7€) 
i=1 i=1 


根据 KKT 条 件 , 最 优点 处 必须 满足 : 


А 
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目标 函数 的 梯度 为 


Vef (а ) Бру =à—p 
Да; = 0 
ш (Ста) = 0 


Vf (a) = Qa +p 
后 面 两 个 方程 是 对 对 偶 问 题 不 等 式 约束 的 限制 。 如 果 ww 之 0, 因 为 有 Aai = 0 的 限制 , 因 
此 有 7 二 0, 此 时 有 
Vf (e yok by = A¿i— g =0—д =< 0 
WR a < C.H Fl (Саг) =0 的 限制 ,因此 有 六 一 0, 此 时 有 
Vfla)it+by; =Ahi—p=Ah—00 
将 上 面 的 两 种 情况 综合 起 来 ,这 个 条 件 可 以 写成 如 下 形式 : 
Vf (a) +by: 20, a; «C 
V fa), бу CO. a > 0 
将 上 面 的 第 一 个 不 等 式 两 边 同 乘 以 一 % ,如果 w 王 十 1, 不 等 式 反 号 ， 
—y Vf(a)i—b<0, а<С 
即 
—y Vf(a) < b 
ШЖ w 王 一 1, 不 等 式 不 变 号 ， 
一 Je) 一 5 之 0 а «C 
因此 有 
—y,Vf(a), Zb 
对 于 另外 一 个 不 等 式 , 情 况 类 似 。 这 4 种 情况 可 以 统一 写成 
—y Vfl@);<b, Vie Ipla) 
—y V fla): Zb, Vi € L. (a) 
其 中 : 
I, (а) = {t | a < C,y, =+ 1 Ka, > 0,y, — 1) 
Tow (а) = {t | a < C,y, =— 1 R a > 0,y, =+1) 
上 面 的 第 一 个 集合 是 正 样本 中 满足 aC 或 者 负 样本 中 满足 二 0 的 样本 集合 ;第 二 个 
集合 是 负 样本 中 满足 aC 或 者 正 样本 中 满足 a 二 0 的 样本 集合 。 
将 上 面 两 个 不 等 式 合并 ,有 
—y Vf(a),i<b<—y;Vf (e); Vi€ IL, (a). Vj€ Tw (a) 
如 果 定 义 
mla) = тах;єт у — Ji V f(a); 


M (a ) = тіп; — y; V fl@); 


€ Nowa) 
则 有 
m(a ) < b < Mla) 
一 个 可 行 解 是 最 优 解 当 且 仅 当 它 满足 下 面 的 条 件 : 
m(a ) < M(a ) 
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反之 ,如 果 一 对 变量 а, 和 ai 不 满足 上 面 的 条 件 , 则 这 样 的 变量 就 需要 优化 。 通 过 上 面 

的 不 等 式 , 可 以 构造 出 迭代 停止 的 准则 为 
m(a*) —M(a*) <£ 

Fer EE A Ti EAR) A ER * 为 第 k 次 迭代 得 到 的 a 值 。 根据 上 面 的 结论 ,可 以 
得 到 第 一 种 工作 和 集 选择 算法 WSS1, 具 体 做 法 是 寻找 违反 上 面 不 等 式 约束 的 两 个 变量 i 和 у. 

(1) 选择 

i € arg maxil— y, V f(a*), | t € I4 (a) 
j € arg maxi (— y, V f(a*), | t € In, (a )]) 
Hp: 
I, (а) = {t | a < Cry =+ 1 R а > 0,y, —— 1) 
Iw (a ) = {t | a < C,y, =— 1 Ra, > 0,y, =+ 1) 
(2) 返回 В= (2,3). 
为 了 加 快 收 敛 速度 ,可 以 利用 二 阶 导数 信息 。 定 义 
а = [ds,0n] 
即 每 次 迭代 时 只 调整 了 工作 集中 B 的 分 量 值 , 即 ds ,其 他 分 量 保持 不 变 , 因 此 ,改变 值 都 为 
0。 将 目标 函数 在 a* 处 进行 二 阶 泰勒 展开 ,因为 目标 函数 就 是 二 次 函数 ,因此 有 
flattd) =f (at) + Vf (a!)'d-- 47927 (a*)d 
=f (a*) + Vf (а) + div f (a* )mds 

在 第 & 十 1 次 迭代 时 ,要 保证 函数 值 Саа) Е f (a*) 的 基础 上 充分 下 降 , 即 要 使 得 

函数 差 值 最 小 ,这 等 价 于 求解 如 下 最 优化 问题 : 


mina, is VS (a*)Eda +90877 (а) абз 


yids =0 
d,250, a= 0; s€ B 
d,<0, a&& = С, t€ B 
等 式 约束 是 因为 要 保证 a 值 更 新 之 后 还 要 满足 等 式 约束 条 件 y"a 二 0。 因 为 ye “一 0， 
XE KE y Ca * - d) —0 则 必须 有 yd 二 0。 不 等 式 约束 由 限定 0<a; 三 C 条 件 得 到 ,如 果 а, 之 
前 已 经 达到 了 下 界 0, 只 能 增加 它 的 值 才能 满足 这 个 限定 范围 ; 同 理 ,如 果 它 的 值 达到 了 上 
Fe C, 只 能 减 小 它 的 值 才 能 满足 这 个 限定 范围 。 
严格 求解 上 面 的 最 小 化 问题 需要 遍历 所 有 的 а; 和 aj; 组 合 ,分 别 求 解 上 面 的 问题 ,计算 
成 本 太 高 。 在 这 里 采用 了 启发 式 搜索 技术 ,由 此 得 到 工作 集 B 的 选择 算法 WSS2 如 下 。 
(1) 选择 
i € arg max, (— y, V f (at), | t € L, (a*)) 
(2) 选择 
j € arg max, (Sub ({ist}) | £ € Гы (à). — V f (at y, <— y: V f (а*):} 
(3) 返回 В= (2,3). 
其 中 ,Sub({i,t)) 为 上 面 的 优化 问题 ,一 旦 i 选 定 ,这 个 优化 问题 很 好 求解 ,具体 求解 方 
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法 为 ,如 果 Ki +K; —2K;>0. WA 
њр) — Cmte etn v f GP 
整个 训练 算法 的 核心 可 以 分 为 两 步 : 第 一 步 选择 工作 集 ; 第 二 步 对 选 定 的 工作 集 变量 
的 子 问 题 进 行 最 优化 求解 。 由 于 是 一 个 密集 矩阵 , 当 问 题 的 规模 很 大 时 ,不 能 完全 将 矩阵 内 
容 存放 在 内 存 中 ,在 实现 时 采用 了 Cache 策略 缓存 一 部 分 矩阵 内 容 。 
在 得 到 a 之 后 ,还 需要 求 出 决策 函数 中 的 0, 定义 o= — b. ШЖ a; 满 足 0 二 a; 二 C, 根 据 
KKT 条 件 有 








p= y V f(a ), 
为 了 减 小 数值 计算 误差 ,一般 计 算 如 下 平均 值 , 分 母 为 满足 Oa СС 的 样本 数 ， 


2 ds «oi V fla); 
SEM" 
108.2 ”主要 数据 结构 
结构 体 svm_node 为 特征 向 量 的 一 个 特征 分 量 。 


struct svm_node 
{ 
int index; // 特征 编号 
double value; // 特征 值 
); 
其 中 ,index 为 特征 编号 ,value ЕАС. 3 IE — Rh Pü fü des *4 ЖР fF I6] НЕЙ 4R Z ¿y ht 
为 0 时 ,可 以 节约 存储 空间 并 加 快 内 积 等 运算 的 速度 。 
结构 体 svm_problem 为 训练 样本 的 集合 。 
struct svm problem 
{ 
int 1; // 训练 样本 的 个 数 
double * y; // 训练 样本 的 对 应 输出 ,类 别 标签 或 者 实数 值 
struct svm node * * x; // 训练 样本 的 特征 向 量 
); 
其 中 ,1 为 训练 样本 的 数量 ;y 为 每 个 样本 所 属 的 类 别 , 是 一 个 大 小 为 1 的 一 维 数组 ;x 为 
训练 样本 的 特征 向 量 的 集合 ,为 一 个 二 维 数组 ,每 一 个 元 素 x[j] 为 一 个 样本 的 特征 向 量 。 
结构 体 svm_parameter 为 支持 向 量 机 的 训练 参数 ,用 于 训练 算法 。 


struct svm parameter 


{ 


int svm_type; // 支持 向 量 机 的 5 种 类 型 ,前 面 讲 过 

int kernel type; // 核 函 数 的 类 型 ,0 为 线性 核 ,1 为 多 项 式 核 ,2 JE 4 In] ЕА 
deouble degree; // 核 函 数 的 参数 , 表 10.1 中 多 项 式 核 计算 公式 中 的 a 

double gamma; // 核 函 数 的 参数 , 表 10.1 中 多 项 式 核 计算 公式 中 的 y 


double coef0; // 核 函 数 的 参数 , 表 10.1 中 多 项 式 核 计算 公式 中 的 b 
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double cache_size; // Cache 的 大 小 ,以 MB 为 单位 ,用 于 缓存 Q E ERU AL 
double eps; // ARR IE B B3 (E 

double C; // 惩罚 因子 c 

int nr_weight; // 样本 权重 数组 的 尺寸 

int *weight label; // 权重 的 类 别 标签 

double * weight; // 样本 权重 值 

double пи; // 参数 v 

double р; 

int shrinking; // 是 否 做 样本 缩减 

int probability; // 是 否 做 概率 估计 


J; 


其 中 ,svm_type 是 支持 向 量 机 的 类 型 ,分 为 5 种 ,前 面 已 经 介绍 ;kernel_type 是 核 函数 
的 类 型 ;degree ватта 和 coef0 JE KAM BRM. cache size 为 训练 时 所 使 用 的 Cache 的 
大 小 ,单位 为 MB; eps 为 算法 迭代 终止 条 件 ;C 为 惩罚 因子 ;nr_weight 为 权重 数组 的 大 小 ; 
weight_label 为 权重 的 类 别 标签 ;weight 为 权重 数组 ;nu 为 参数 ;p 为 概率 值 ;shrinking 表 
示 是 否 要 做 样本 缩减 ;probability 表示 是 否 做 概率 估计 。 

结构 体 svm_model 为 训练 得 到 的 支持 向 量 机 模型 。 

struct svm_model 


{ 


svm_parameter param; 


int nr_class; // 类 型 数 

int 1; // 训练 样本 数 

svm node **SV; // 支持 向 量 

double **sv_coef; // 支持 向 量 的 系数 

double * rho; // p BAL, КЛО к(к—1)/2 
double * probA; // 成 对 概率 数据 

double * probB; 

int * label; // 每 个 类 的 类 别 标签 

int * nSV; // 每 个 类 的 支持 向 量 个 数 


int free sv; 
1; 
其 中 ,param 是 训练 时 指定 的 参数 ,nr_class 为 类 型 数 .1 为 训练 样本 数 ,SV 为 训练 得 到 
的 支持 向 量 ,sv_coef 为 这 些 支 持 向 量 的 系数 ,这 是 一 个 二 维 数组 ,每 一 个 一 维 数组 为 一 个 二 
分 类 SVM 模型 的 支持 向 量 系数 ,rho 为 参数 。 最 终 得 到 的 分 类 器 为 


sgn (> ya K (х.х) +6) 
libsvm 支持 多 分 类 问题 ,如 果 有 k PRIA RHE kk 0/2 个 二 分 类 器 模型 。 
结构 体 decision_function 为 训练 得 到 的 决策 函数 , 它 包 括 支持 向 量 的 a 系数 以 及 参数 
0 ,定义 如 下 : 


struct decision function 


t 
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double * alpha; // 支持 向 量 的 系数 数组 a 
double гһо; М =b 
J; 


和 矩阵 Q 是 一 个 密集 矩阵 , 当 样 本 数 很 大 时 ,完全 存储 会 占用 大 量 空 间 。 因 此 ,有 必要 采 
用 缓存 技术 ,只 存储 矩阵 的 部 分 内 容 。 在 SMO 的 迭代 过 程 中 ,只 用 到 这 个 矩阵 的 部 分 列 ， 

[—— 如 果 在 缓存 中 存放 了 这 些 列 , 可 以 避免 大 部 分 的 核 函 数 
计算 。 

在 libsvm 中 的 Cache 采用 了 LRU 策略 (最 近 最 少 使 
用 ,这 个 概念 可 以 参考 任何 一 本 操作 系统 或 者 计算 机 系统 
结构 教材 ) ,由 类 Cache 实现 。 

下 面 要 介绍 的 3 个 类 是 与 最 优化 问题 中 矩阵 的 实现 相 
X. FL. QMatrix 是 抽象 的 基 类 , Kernel 继承 自 
| QMatrix.SVC_Q 又 继承 自 Kernel。 这 几 个 类 的 继承 关系 
图 10.13 核 矩阵 类 的 继承 关系 ”如 图 10.13 所 示 。 
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Ky = K (xi,x;) 
其 中 ,x; 和 x; 为 两 个 样本 的 特征 向 量 ,K ARAR PRA PAD WEAGRIB SUR EU 
不 是 公式 里 使 用 的 Q 矩阵 ,公式 里 Q 矩阵 的 元 素 还 要 在 核 函数 基础 上 乘 以 y;y;。libsvm Ж 
持 自 定义 核 函 数 ,在 训练 时 ,只 要 将 核 矩 阵 保存 在 指定 的 文件 中 ,程序 可 以 自动 读 出 用 来 训 
练 。QMatrix 是 一 个 抽象 基 类 ,定义 如 下 : 


class QMatrix { 


public: 
virtual Qfloat * get_Q(int column, int len) const =0; // 获取 Q 9 16 
virtual double * get_QD() const =0; // 获取 对 角 线 元 素 的 值 


virtual void swap_index(int i, int j) const =0; 
virtual ~QMatrix() {} 
1; 


函数 пег О РЗ EJER AYIE, РАЖ get_QD 用 于 获取 矩阵 对 角 线 元 素 的 值 ,swap 
_index 用 于 交换 下 标 。 

核 函数 类 Kernel Ж A QMatrix ,提供 了 线性 核 ,多项式 核 .RBF E sigmoid E. Ë ж 
义 核 5 种 核 函 数 , 即 计算 K (xz )。 类 定义 如 下 : 


class Kernel: public QMatrix { 
public: 
Kernel (int 1, svm node * const * x, const svm parameter& param); 
virtual -Kernel(); 
static double К function (const svm node * x, const svm node * у, 
const svm parameter& param); 
// 这 两 个 函数 留 给 派生 类 实现 


virtual Qfloat * get_Q(int column, int len) const =0; 
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virtual double * get_QD() const =0; 


virtual void swap index (int i, int j) const 


{ 
Swap (х[1],х[51); 
if(x square) swap(x square[i],x square[j]); 
) 
protected: 


double (Kernel::* kernel function) (int i, int j) const; 


private: 
const svm node * * x; // 特征 向 量 集合 
double * x_square; // 临时 变量 ,用 于 存放 向 量 与 自身 的 内 积 
// 下 面 是 核 函 数 的 参数 
const int kernel type; // 核 函数 的 类 型 
const int degree; // 多 项 式 核 的 次 数 
const double gamma; // 多 项 式 核 的 系数 ,高 斯 核 的 系数 
const double coef0; 
// 计算 向 量 内 积 
static double dot (const svm_node * рх, const svm_node * py); 
// 计算 线性 核 的 值 


double kernel linear(int i, int j) const 
{ 
return dot (x[i],x[j]); 
) 
// EE (Y ° xix,*b)d 
double kerne1_poly(int i, int j) const 
{ 
return powi (gamma * dot (x[i],x[j])+coef0, degree) ; 
} 
// 高 斯 核 e (Уу (х.ж)? (х—х,)) 
double kerne1_rbf (int i, int j) const 
{ 
return exp(-gamma* (x_square[i]+x_square[j]-2* dot (x[i],x[j31))) ; 
) 
// sigmoid Ж tanh (у, xix,* b) 
double kerne1_sigmoid(int i, int j) const 
{ 
return tanh (gamma * dot (x[i],x[j])+coef0); 
) 
// 自 定义 核 ,已 经 直接 计算 出 了 核 函 数 的 值 
double kerne1_precomputed (int i, int j) const 
{ 


return x[i] [ (int) (x[j] [0] .value) ].value; 


J; 
函数 dot JI FH FN 4 [8] SERO A ВА. EAE Y RG Te ЖЕЕ. ТОШ F: 
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double Kernel::dot (const svm node * px, const svm node * ру) 


{ 
double sum =0; 


while (px->index !=-1 && py->index !=-1) 
{ 
if (px-> index ==py-> index) // 如 果 是 同一 个 分 量 , 相 乘 
{ 
sum +=px->value * py->value; 
++px; 
++py; 
) 
else 
{ 
if (рх- > index >py-> index) // 否则 ,进入 下 一 个 分 量 
++ру; 
else 
*+px; 


) 
return sum; 


} 


函数 k function 用 于 计算 两 个 样本 x 和 y 的 核 函 数值 ,传人 的 参数 为 特征 向 量 和 核 函 
数 的 参数 : 


double Kernel::k_function(const svm_node * x, const svm_node * y, 
const svm parameter& param) 
t 
switch (param.kernel_type) 
{ 
case LINEAR: 
return dot (х,у); 
case POLY: 
return powi (param.gamma * dot (x, y)+param.coef0,param.degree) ; 
case RBF: // 这 里 复杂 一 些 ,要 计算 
{ 
double sum =0; 
while (x->index !=-1 && y-»index !=-1) 
t 
if(x-»index ==y-> index) 
{ 
double d =x->value -y-»value; 
sum t-d* d; 
++х; 


++у; 
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if (х- > index >y->index) 

{ 
зит +=y->value * y->value; 
++у; 

) 

else 

{ 
sum +=x->value * x->value; 


++x; 


} 
while (х- > іпаех !=-1) 
{ 
sum +=x->value * x->value; 
++? 
} 
while (у- > іпаех !=-1) 
{ 
sum +=y->value * y-»value; 
++ y; 
} 
return exp (-param.gamma * sum); 
} 
сазе SIGMOID: 
return tanh (param.gamma * dot (x, y) * param.coef0) ; 
case PRECOMPUTED: 
return x[(int) (у- > value)].value; 
default: 


return 0; 


) 
类 SVC ОО 矩阵 ,和 前 面 公式 中 的 定义 相同 ЖН Kernel 类 。 类 定义 如 下 : 


class SVC_Q: public Kernel 
{ 
public: 
// ERNE РАВО НГ Ж FE cache, 申 请 存储 对 角 线 元 素 的 空间 QD, 并 且 计 算出 对 
// 角 线 元 素 的 值 
SVC Q(const svm problem& prob, const svm parameter& param, const schar * y ) 
:Кегпе1 (ргор.1, prob.x, param) 
{ 
clone (y,y_,prob.1); 
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cache =new Cache (prob.1, (long int) (param.cache size * (1««20))); 
QD =new double[prob.1]; 
for(int i=0;i<prob.1;i++) 
// QD 中 存储 的 是 Q ERER fü AX (Hx RAFI: y; 
// 因为 这 个 值 一 定 是 1 
QD[i] = (this-> * kernel function) (1,1); 
) 
// 获取 第 і 17 len 个 元 素 的 值 
Qfloat * get_Q(int i, int len) const 
{ 
Qfloat * data; 
int start, j; 
if( (start =cache->get_data(i, &data,len)) <len) 
{ 
for (j=start;j<len;j++) // 计算 yi ys xi x, 
data[j] = (Qfloat) (y[i] * y[j] * (this-» * kernel function) (i,j)); 
} 
return data; 
} 
// 返回 对 角 线 元 素 
double * get QD() const 
t 
return QD; 
) 
// 交换 两 个 元 素 的 下 标 
void swap_index (int i, int j) const 
{ 


cache->swap_index (i,j); 


Kernel: :swap_index (i,j); // 交换 矩阵 元 素 
swap(y[i],y[3]); // 交换 类 别 标签 
swap (QD[i],QD[3]) ; // 交换 对 角 元 素 

) 

// Wr E ра 3 rh Ë J 2 [Н] 

~SVC_Q() 

{ 
delete[] у; 
delete cache; 
delete[] QD; 

} 

private: 
schar * y; // 类 别 标签 


Cache * сасһе; 
double * QD; 
н 
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108.3 求解 器 


求解 器 Solver 用 于 支持 向 量 机 最 优化 问题 的 求解 。 在 libsvm 中 ,求解 器 的 基 类 是 
Solver, Е XM T C-SVC 的 求解 。Solver_ NU 继承 自 Solver, 用 于 求解 vSVC。 在 这 里 , 重 
点 分 析 Solver 类 。 

Solver 是 求解 器 的 基 类 ,实现 了 求解 对 偶 问题 的 SMO 算法 。 类 定义 如 下 : 


class Solver { 
public: 
Solver() {}; 
Virtual ~Solver() {}; 


struct SolutionInfo { 


double obj; // 目标 函数 值 

double rho; //-b 

double upper_bound_p; // 正 样本 的 c 

double upper_bound_n; // 负 样 本 的 с 

double г; // 仅 供 Solver NU 使 用 


н 
// 求解 函数 ,核心 函数 ,也 是 这 个 类 唯一 的 接口 函数 
// 1 为 样本 数 ,8 为 核 函 数 矩 阵 ,p 为 目标 函数 一 次 项 的 系数 向 量 ,y_ 为 样本 标签 
// 数组 ,alpha 为 返回 参数 , 即 a .cp 和 cn 为 正 负 样本 的 参数 C, eps HERA 
// ЕВИ, shrinking 为 是 否 做 样本 缩减 
void Solve (int 1, const QMatrix& Q, const double *p , const schar * у, 
double * alpha_, double Cp, double Cn, double eps, SolutionInfo * si, int 


shrinking); 


protected: 
int active size; // 活跃 样本 集 的 大 小 ,它们 参加 和 迭代 
Schar *у; // 类 别 标签 向 量 , 取 值 为 -1 或 者 +1 
double * G; // 目标 函数 梯度 vf(a)-= Ge:= (Qa+p): 


// a 值 的 状态 , а: <0, 0<а; <С,а:=С 三 种 情况 
enum { LOWER BOUND, UPPER BOUND, FREE }; 


char * alpha status; // LOWER BOUND,UPPER BOUND,FREE 
double * alpha; // a 值 数组 

const QMatrix * Q; // 8 和 矩阵 
const double * Ор; // 8 矩阵 的 对 角 线 元 素 

double eps; // 误差 国 值 ,迭代 终止 的 条 件 
double Ср,Сп; // 正 样 本 和 负 样 本 的 惩罚 因子 
double *р; // 目标 函数 中 的 一 次 项 系数 p 
int * active set; // 活跃 样本 集 


// G_bar 那 些 达到 上 界 的 样本 的 核 矩 阵 元 素 之 和 ,定义 这 个 变量 ,是 为 了 提高 
// 计算 速度 ,对 样本 做 缩减 时 , 减 小 重建 梯度 的 计算 量 , 后 面 会 进行 详细 介绍 
double * С bar; 

int 1; 11 训练 样本 数 

bool unshrink; // 是 否 进行 样本 缩减 

// 函数 get C 返回 第 i 个 样本 的 下 ” 罚 因子 ,根据 正 负 样本 返回 不 同 的 值 
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double get_C (int i) 
{ 
// 正 样本 返回 cp, 负 样本 返回 cn 
return (y[i] >0)? Cp : Cn; 
) 
// 函数 update alpha status 用 于 更 新 a; 的 状态 
void update alpha status (int i) 
{ 
if (alpha[i] >=get_C(i)) // ai 之 C 
alpha_status[i] =UPPER_BOUND; 
else if (alpha[i] <=0) //ai<0 
alpha_status[i] =LOWER BOUND; 
else alpha status[i] =FREE; // 0&a,«C 
) 
// 函数 is upper bound 判断 w;: 是 否 达到 上 界 
bool is_upper_bound(int i) { return alpha_status[i] ==UPPER_BOUND; } 
EIN LEE 
bool is lower bound(int i) ( return alpha status[i] ==LOWER BOUND; ) 
// 判断 a :是 否 自由 , 即 满足 约束 条 件 
bool is_free (int i) { return alpha status[i] ==FREE; } 
// 交换 两 个 样本 的 下 标 
void swap_index (int i, int j); 
// 重 构 梯度 
void reconstruct gradient(); 
// 工作 集 选 择 ,关键 的 一 步 
virtual int select_working_set (int &i, int &j); 
// 计算 o 的 值 
virtual double calculate rho(); 
// 进行 样本 缩减 
virtual void do_shrinking(); 
private: 
bool be_shrunk (int i, double Gmaxl, double Gmax2); 
н 


理解 Solver 类 的 核心 是 理解 Solve, select_working_set,reconstruct_gradient 这 3 ^ ñ 
数 ,下面 重 点 对 它们 进行 分 析 。 
函数 reconstruct. gradient 用 于 重新 计算 目标 函数 的 梯度 ,梯度 在 选择 工作 集 、 计 算 晶 
标 函 数值 ,求解 两 个 变量 的 子 问题 的 时 候 都 有 用 。 梯 度 的 计算 公式 为 
G=A+ 23 Оза; = D Qa; 


о<а<С j=l 


其 中 : 
A=C) Q; i-l-4 


aj=C 


这 部 分 a 其 实 是 不 变 的 ,不 用 重复 计算 。 每 次 更 新 a 之 后 ,都 需要 重新 计算 梯度 值 。 函 数 代 
码 如 下 : 
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void Solver::reconstruct gradient () 
{ 
if(active size ==1) return; 
int i,j; 
int nr free =0; 
// 先 加 上 p, 一 次 项 的 系数 
for(j=active size;j<1;j++) 
G[j] =G bar[j] +p[j]; 
// 统计 自由 变量 的 个 数 
for(j=0;j<active size;j++) 
if(is_free(j)) 
nr freer+; 
if(2* nr_free «active size) 
info("\nWARNING: using -h 0 may be faster\n"); 
if (nr free* 1 >2* active size* (l-active size)) 
t 
for (i=active_size;i<l;i++) 
{ 
const Qfloat * Q i-Q-»get Q(i,active size); 
for (j=0;j<active_size;j++) 
if(is_free(j)) 
G[i] +=alpha[j] * Q 113]; 


} 
else 
{ 
for (i=0;i<active_size;i++) 


if(is free(i)) 


{ 
const Qfloat *Q i =Q->get_Q(i,1); 
double alpha i -alpha[i]; 
for (j=active size;j«1;j**) 
G[j] +=alpha i * Q i[j]; 
} 


} 


函数 Solve 是 SMO 算法 的 核心 ,函数 参数 在 前 面 已 经 介绍 过 了 ,函数 返回 值 为 alpha_。 
代码 如 下 : 


void Solver::Solve (int 1, const QMatrix& Q, const double * p , const schar * y ,double 


* alpha , double Cp, double Cn, double eps, SolutionInfo* si, int shrinking) 


this-»1-1; // 训练 样本 数 
this->Q =&Q; // ОЖ 
QD-Q.get QDO ; // 8 矩阵 的 对 角 线 
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clone (p, p ,1); // 复制 一 次 项 系数 
clone (y, y_,1); // 复制 样本 类 别 标签 
clone(alpha,alpha ,1); // 复制 alpha 的 初始 值 


this->Cp =Ср; 
this-»Cn =Сп; 
this->eps =eps; 
unshrink =false; 
// 首先 ,初始 化 а. 的 状态 ,根据 值 设 置 状 态 
{ 
alpha status =new char[1]7 
for(int 1=0;1<1;1++) 
update alpha _status(i); 
) 
// 初始 化 活动 集 , 用 于 样本 缩减 ,活动 集中 的 样本 ,在 后 面 还 会 用 ,否则 不 用 
{ 
active_set =new int[1]; 
for(int 1=0;1<1;1++) 
active set[i] =i; 
active size -1; 
) 
// 初始 化 梯度 ,包括 梯度 的 值 和 с bar 的 值 
{ 


G =new double [1]; // 分 配 梯度 的 空间 
G bar =new double[1]; // 分 配 G 的 空间 
int 1; 


// 对 每 个 样本 ,进行 第 一 遍 循 环 , 初 始 化 梯度 和 G 的 值 

for (1=0;1<1;і++) 

{ 
G[i] =p[i]; // 梯度 初始 化 为 p 
G bar[i] =0; //G 初 始 化 为 0 

} 

// 对 每 个 样本 ,进行 第 二 遍 循环 ,计算 梯度 和 G. bar 的 值 


Ёог(1=0;1<1;1++) 


if(!is lower bound(i)) // 如 果 ai>0 
{ 
const Qfloat * Q i -Q.get Q(i,1); // 获取 矩阵 的 第 1 9] 
double alpha i =а1рһа[1]; 
int j; 
Ғог (3=0;ј<1;ј++) // G= F а:05 


G[j] *-alpha i* Q i[j]; 
// 达到 上 界 的 变量 ,更 新 G bar 
HG= су У) ка 
3 


if(is upper bound(i)) 
for(j-0;j«1;j**) 
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G bar[j] *-get C(i) * Q i[j]; 


) 
// 下 面 是 SMO 算法 的 核心 
int iter =07 // 迭代 次 数 
int max iter =max(10000000, 1>INT MAX/100 ? INT MAX : 100* 1); 
int counter =min(1,1000)+1; 
// 和 迭代 循环 ,最 多 迭代 max iter 次 
while (iter <max_iter) 
{ 
// 显示 进度 ,执行 样本 缩减 
if (--counter ==0) 
{ 
counter =тіп (1,1000); 
if(shrinking) do_shrinking(); // 如 果 需 要 做 样本 缩减 
info("."); 
} 
// 和 5 为 工作 集 变量 的 下 标 
int i,j; 
// 调用 select working set 选择 工作 集 
if(select_working_set(i,j)!=0) 
{ 
// 重 构 整 个 梯度 
reconstruct_gradient (); 
// 重 置 活动 集 , 并 进行 检查 
active size -1; 


info("*"); 


if(select working set (i,j) !=0) // 如 果 选 不 出 工作 集 , 则 终止 迭代 
break; 
else 
counter =1; // 下 次 迭代 中 进行 样本 缩减 
} 
++iter; // 和 迭代 次 数 加 1 


// 更 新 和 ,并 且 要 处 理 可 行 域 边界 情况 

const Qfloat * Q i =Q.get_Q(i,active_size); 
const Qfloat * Q j =Q.get_Q(j,active_size); 
double C_i =get_C(i); 

double C j =get_C (j); 

// a Fla yt ЗКО i 8 

double old alpha i =alpha[i]; 

double old alpha ј -alpha[jl; 

// 下 面 就 是 SMO 经 典 论文 中 的 步骤 了 ,求解 两 个 变量 的 最 优化 问题 
// Жу 和 yy 同 号 与 异 号 两 种 情况 进行 处 理 

// 第 一 种 情况 ,如 果 y; 和 y; 异 号 

if (y[i] !=y[j]) 
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// 1- Qut Q5* 20:5 , UCM # 3 

double quad coef -QD[i]*QD[j]*2 * Q i[j]; 

// 对 于 小 于 或 等 于 0 的 情况 ,在 这 里 做 了 截断 处 理 

if (quad coef <=0) // TAU 是 一 个 接近 于 0 的 小 正 数 , 值 为 10 3 
quad сое? =TAU; 

// А =— (E;+ E) /m 

double delta = (-G[i]-G[j]) /quad_coef; 

double diff =alpha[i] -alpha[j]; 


alpha[i] +=delta; // а: 
alpha[j] *-delta; // 更 新 ay 
if (diff >0) 

{ 


if (alpha[j] <0) 

{ 
alpha[j] =0; 
alpha[i] =diff; 


} 
else 
{ 
if (alpha[i] <0) 
{ 
alpha[i] =0; 
alpha[j] =-diff; 


} 
if (diff >С i -C_j) 
{ 
if (alpha[i] >С ії) 
{ 
alpha[i] =C_i; 
alpha[j] -C i -diff; 


} 
else 
{ 
if (alpha[j] >С 3) 
{ 
alpha[j] =С ј; 
alpha[i] =C_j +diff; 


else // 如 果 同 号 


// 17 Q+ Q5- 20: , АК ЛИЙ ЖЖ 


А 
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double quad coef =QD[i]+QD[j]-2* Q i[j]; 


if (quad coef «-0) 
quad сое? =TAU; 
// А =— (E;+E;) /0 
double delta = (G[i]-G[j]) /quad_coef; 
double sum -alpha[i] +alpha[j]; 
alpha[i] -=delta; 
alpha[j] +=delta; 
if (sum >С і) 
{ 
if (alpha[i] >С і) 
{ 
alpha[i] -C i; 
alpha[j] =sum -C i; 


) 
else 
t 
if(alpha[j] «0) 
{ 
alpha[j] =0; 


alpha[i] =sum; 


} 
if (sum >C_j) 
{ 
if (alpha[j] >C_j) 
{ 
alpha[j] =C j; 
alpha[i] =sum -C_j; 


} 
else 
{ 
if (alpha[i] <0) 
{ 
alpha[i] =0; 
alpha[j] =sum; 


} 
// 更 新 梯度 的 值 


// 同样 做 截断 处 理 


// a: +a 的 值 在 迭代 前 后 不 变 
// 更 新 
// 更 新 


// 超出 可 行 域 的 上 界 , 做 截断 处 理 


// 超出 可 行 域 的 下 界 ,做 截断 处 理 


// 超出 可 行 域 的 上 界 , 做 截断 处 理 


// 超出 可 行 域 的 下 界 ,做 截断 处 理 
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double delta_alpha_i =alpha[i] -old alpha i; 
double delta alpha j =alpha[j] -old alpha j; 
// 由 于 a; 和 a; 的 变化 导致 梯度 更 新 
for (int k=0;k<active size;k++) 
{ 
G[k] *-Q i[k] * delta alpha і +0 ј [К] * delta alpha j; 
J 
// 更 新 a :的 状态 和 G 


t 
bool ui =is_upper_bound (i); 
bool uj -is upper bound(j); 
update alpha status (i); 
update alpha status(j); 
int k; 
if (ui !-is upper bound(i)) 
t 
Q i-Q.get 0(1,1); 
if (ui) 
for (k=0;k<1;k++) 
G bar[k] -=C_i * Q ilk]; 
else 
for (k=0;k<1;k++) 
G bar[k] +=C_i * Q ilk]; 
} 
if (uj !-is upper bound(j)) 
{ 
Qj =Q.get_Q(j,1); 
if (uj) 
for (k=0;k<1;k++) 
G bar[k] -=C_j * Q j[k]; 
else 
for (k=0;k<1;k++) 
G bar[k] *-C j * Q j[k]; 
} 
} 


} 
// 如 果 已 经 达到 最 大 迭代 次 数 
if (iter >=max_iter) 
{ 
if (active_size <1) 
{ 
// 重 构 整 个 梯度 以 计算 目标 函数 的 值 
reconstruct_gradient (); 
active size =1; 


info("*"); 
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} 

fprintf (stderr, "AnWARNING: reaching max number of iterationsin"); 
) 
// 计算 p 的 值 
si->rho =calculate_rho(); 


// 计算 目标 函数 的 值 
// 因为 G.- (oa+P)。, 目 标 丽 数 为 二 egat+FPre ,用 梯度 可 以 直接 算出 来 


{ 

double v =0; 

int i; 

for (i=0;i<1;i++) 

у +=а1рһа[1] * (G[i] +p[i]); //d (G*p) 

si->obj -v/2; 
) 
// 回填 解 的 值 
{ 

for(int 1=0;1<1;1++) 

alpha [active set[i]] =alpha[i]; 
) 
si-»upper bound p =Cp; 
si-»upper bound n -Cn; 
// 输出 日 志 信 息 , 便 于 分 析 和 调试 
info("\noptimization finished, #iter =%d\n",iter); 
delete[] p; 
delete[] y; 
delete[] alpha; 
delete[] alpha_status; 
delete[] active set; 
delete[] G; 
delete[] G bar; 
) 


PRK select working set 负责 选择 工作 集 , 如 果 已 经 达到 最 优 解 返回 1, 否 则 返回 0,out 
Li 和 out_j 为 返回 的 工作 集 , 工 作 集 的 选择 依赖 于 梯度 的 值 。 代 码 如 下 : 


int Solver::select working set(int &out i, int &out j) 
t 

double Gmax =- INE; 

double Gmax2 =- INF; 

int Gmax idx =-1; 

int Gmin idx =-1; 

double obj diff min =INF; 

// 遍历 整个 活动 集 

for (int t=0;t<active size;t++) 


if (y[t]==+1) // 正 样本 
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if(!is upper bound(t)) 


if(-G[t] »-Gmax) // 计算 6 的 最 大 值 
{ 
Gmax =-G[t]; // 更 新 最 大 值 
Gmax idx =t; // 更 新 最 大 值 对 应 的 1 
} 
} 
else 
{ // 负 样 本 
if(!is lower bound(t)) 
if(G[t] >=Gmax) 
t 
Gmax =G[t]; 
Стах idx =t; 
) 
} 


int i =Gmax_idx; 
const Qfloat * Q i =NULL; 
if(i !=-1) 
Q_i =Q->get_Q(i,active_size); 
for(int j=0;j<active_size;j++) 
{ 
if(y(j]==+1) 
{ 
if (!is lower bound(j)) 
t 
double grad diff-Gmax*G[j]; 
if (G[j] >=Gmax2) 
Gmax2 -G[j]; 
if (grad diff >0) 
{ 
double obj_diff; 
double quad coef =QD[i]+QD[j]-2.0* y[i] * Q i[j]; 
if (quad coef >0) 
obj diff =- (grad diff * grad diff)/quad coef; 
else 
obj diff =- (grad diff * grad diff)/TAU; 
if (obj diff «-obj diff min) 
t 
Gmin idx-j; 
obj diff min —obj diff; 
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else 


if (!is upper bound(j)) 


t 
double grad diff-Gmax-G[jl; 
if (-G[j] >=Gmax2) 
Gmax2 =-6[5]; 
if (grad diff >0) 
t 
double obj diff; 
double quad coef =QD[i]+QD[j]+2.0* y[i] * Q i[j]; 
if (quad coef >0) 
obj diff =- (grad diff * grad diff)/quad coef; 
else 
obj diff =- (grad diff * grad diff)/TAU; 
if (obj diff «-obj diff min) 
1 
Gmin idx-j; 
obj diff min -obj diff; 
} 
} 
} 


} 

if (Gmax+ Gmax2 <eps) 
return 1; 

out_i =Gmax_idx; 

out j =Gmin_idx; 

return 0; 


) 
函数 calculate rho 计算 o. BJ. —b 的 值 ,计算 公式 在 之 前 已 经 介绍 。 代 码 如 下 : 


double Solver::calculate rho() 
t 
double r; 
int nr free =0; 
double ub =INF, lb =- INF, sum free =0; 
for(int i=0;i<active_size;i++) 
{ 
double yG =y[i] * G[i]; 
if(is upper bound(i)) 
t 
if(y[li]---1) 
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else 


lb =max (1b, yG) ; 


ub =min (ub, yG) ; 


j 
else if(is lower bound(i)) 


{ 


if(y[il==+1) 
ub =min (ub, yG) ; 
else 


lb =max (1b, yG); 
} 
else 
{ 
++nr_free; 
sum_free +=yG; 
) 
} 
if (nr_free>0) 
r-sum free/nr free; 
else 
r = (ub+ 1b) /2; 
return г; 


} 


10.9 应 用 


支持 向 量 机 作为 深度 学 习 技术 出 现 之 前 最 好 的 机 器 学 习 方 法 ,在 过 去 二 十 多 年 里 被 广 
泛 应 用 于 数据 分 析 和 模式 识别 的 各 个 领域 ,使 用 径 向 基 函 数 核 的 支持 向 量 机 在 众多 问题 上 
都 有 最 好 的 表现 。 文 献 [7] 对 模式 识别 领域 的 应 用 进行 了 概述 。 典 型 的 应 用 包括 行人 检 
JU, SCA PAO 、 人 脸 检测 [12]、 人 脸 识别 35095 .字符 识别 5 ,疾病 诊断 2 V IR FE 
识别 5 等 。 

文本 分 类 是 自然 语言 处 理 领域 的 一 个 经 典 问题 ,其 目标 是 判断 一 篇 文本 的 类 别 , 例 如 ， 
对 于 新 闻 类 的 网 页 ,判断 它 是 属于 政治 经济、 体育 还 是 娱乐 。 和 其 他 模式 识别 问题 一 样 , 文 
本 分 类 的 流程 也 是 先 用 大 量 人 工 标注 好 类 别 的 样本 送 入 机 器 学 习 算 法 中 训练 ,得 到 一 个 模 
型 ,然后 用 这 个 模型 对 新 文本 的 类 型 进行 预测 。 

贝 叶 斯 分 类 器 近邻 算法 、 神 经 网 络 、 支 持 向 量 机 等 机 器 学 习 算 法 先后 都 被 用 于 解决 
文本 分 类 问题 。 如 果 我 们 选用 支持 向 量 机 作为 机 器 学 习 算法 , 剩 下 的 另外 一 个 问题 就 是 怎 
么 计算 特征 向 量 。 在 自然 语言 处 理 领 域 ,描述 文档 的 经 典 方法 是 向 量 空间 模型 (Vector 
Space Model. VSM) , 它 用 一 个 向 量 来 表示 一 篇 文档 。 在 这 种 模型 里 ,最 常用 的 特征 是 TF- 
IDF 特征 ,下 面 我 们 介绍 这 一 特征 的 原理 。 

在 这 里 TF 指 词 频 率 , 即 一 个 词 在 某 一 篇 文档 中 出 现 的 次 数 ;IDF 指 文档 频率 的 倒数 ， 
文档 频率 指 一 个 词 在 多 少 篇 训练 文档 中 出 现 。 一 个 词 对 文档 分 类 是 否 有 价值 ,最 简单 的 判 
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断 规则 是 这 个 词 在 某 一 类 或 者 几 类 文档 中 频繁 出 现 ,但 在 其 他 类 型 的 文档 中 不 频繁 出 现 。 
例如 光 航 空 母 舰 区 战斗机 ?这 些 词 多 出 现在 军事 类 的 文档 中 ,而 在 其 他 类 型 的 文档 中 很 少 出 
现 ;GDP、“ 价 格 ” 这 样 的 词 多 出 现在 经 济 类 的 文档 中 ,在 其 他 类 型 的 文档 中 很 少 出 现 。 

首先 计算 词 对 文档 的 词 频率 TF, .这 个 值 为 词 出 现 的 次 数 除 以 文档 的 总 词 数 。 接 下 来 
计算 道 文档 频率 IDF; ,这 个 值 为 总 文档 数 除 以 出 现 词 的 文档 数 , 然 后 取 对 数 : 
жүүт 
在 这 里 ,Ni ca, 为 出 现 词 的 文档 数 ,s 是 一 个 很 小 的 正 数 ,加 上 它 是 为 了 避免 除 0 操作 。 根 据 
这 两 个 值 可 以 计算 词 ; 对 文档 i 的 TF-IDF 特征 : 

xy = TF; X IDF; 

对 于 词典 中 的 所 有 词 我 们 都 计算 它 对 第 i 篇 文档 的 TF-IDF 特征 ,最 后 组 合成 文档 的 

特征 向 量 : 


IDF, = 1 


`" == [za sT s "°° ЫЛ 

在 这 里 ,n 是 词典 中 词 的 个 数 。 有 一 个 问题 我 们 需要 考虑 ,有 一 些 词 在 所 有 类 型 的 文档 
中 都 会 出 现 ,如 日 期 .标准 的 动词 等 ,这 些 词 对 分 类 没有 价值 ;另外 ,如 果 使 用 词典 中 的 所 有 
词 计算 特征 ,特征 向 量 的 维 数 也 会 很 高 。 因 此 ,只 选择 对 分 类 有 用 的 一 部 分 词 来 构建 这 个 向 
量 。 选 择 词 的 标准 和 前 面 的 TF-IDF 特征 思想 类 似 , 即 在 某 一 类 文档 中 出 现 频繁 ,而 在 另外 
类 型 的 文档 中 出 现 不 频繁 的 词 是 对 分 类 有 用 的 特征 ,衡量 词 对 分 类 重要 性 的 常用 指标 有 交 
SU A ri SY AE CHI 统计 量 等 。 

我 们 对 词典 中 所 有 的 词 计算 上 面 的 指标 值 , 然 后 按照 指标 值 从 大 到 小 排序 ,最 后 选择 出 
前 面 的 一 部 分 词 最 后 特征 ,至 于 选 多 少 个 词 ,可 以 根据 经 验 和 实验 效果 来 定 。 男 外 ,我 们 还 
需要 对 特征 向 量 做 归 一 化 ,可 以 用 L1 归 一 化 ,也 可 以 用 2 归 一 化 。 

到 这 里 为 止 还 有 一 个 问题 没有 解决 : 中 文 的 词 之 间 不 像 英 文 一 样 有 空格 符 进行 间隔 ， 
因此 我 们 需要 对 句子 进行 分 词 , 即 断 句 ,将 句子 切 分 成 单词 。 目 前 常用 的 分 词 算法 有 最 大 正 
向 匹配 、 最 大 双向 匹配 、 隐 马尔 可 夫 模 型 等 。 开 源 的 中 文 分 词 系统 有 ICTCLAS, 
Iksegment 等 。 
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第 11 章 
线性 模型 


本 章 介绍 线性 模型 家 族 ,包括 logistic 回归 和 线性 支持 向 量 机 两 类 ,它们 的 预测 函数 是 
线性 函数 。 虽然 线 性 函数 的 建 模 能 力 有 限 , 但 当 特 征 向 量 维 数 很 高 ,训练 样本 数 很 大 时 它 具 
有 速度 上 的 优势 ,在 大 规模 分 类 问题 中 得 到 成 功 的 应 用 。 


11.1 logistic 回归 


logistic 回归 吕 即 对 数 概率 回归 , 它 的 名 字 虽 然 叫 * 回 归 ”, 但 却 是 一 种 用 于 二 分 类 问题 
的 分 类 算法 , 它 用 sigmoid 函数 估计 出 样本 属于 某 一 类 的 概率 。 概 率 的 值 为 0 一 1, 如 果 有 这 
样 一 个 函数 ; 对 于 一 个 样本 的 特征 向 量 , 这 个 函数 可 以 输出 样本 属于 每 一 类 的 概率 值 ,那么 
这 个 函数 就 可 以 用 来 作为 分 类 函数 。 第 9 章 介 绍 的 sigmoid 函数 (也 称 为 logistic 函数 ) 就 
具有 这 种 性 质 , 它 的 定义 为 
1 
~ TFexp(—2) 
这 个 函数 的 定义 域 为 整个 实数 域 . 值 域 为 (0.1) ,并 且 是 一 个 单调 的 增 函 数 。 根 据 对 分 
布 函 数 的 要 求 , 这 个 函数 可 以 用 来 作为 随机 变量 > 的 分 布 函数 , 即 
р(х Sz) = h(z) 
直接 将 这 个 函数 用 于 分 类 有 问题 , 它 是 个 一 元 函数 ,在 实际 应 用 中 特征 向 量 一 般 是 多 维 
的 。 先 用 一 个 线性 函数 将 输入 向 量 x 映射 成 一 个 实数 > 即 可 ,这 样 就 得 到 如 下 预测 函数 ; 
1 
1 十 exp (—wix) 
其 中 ,w 为 线性 映射 权 向 量 , 由 训练 算法 确定 。 在 预测 时 ,用 权重 与 测试 样本 的 特征 向 量 计 
算 加 权 和 : 


h(z) 


A(x) = 


z = w Hw exter tw? z, 
再 用 logistic 函数 进行 变换 ,就 得 到 了 最 终 的 输出 。 在 这 里 还 使 用 了 偏 置 wo ,如果 按 照 
如 下 定义 扩充 特征 向 量 和 权重 向 量 : 
x< [1.x] 

以 及 权重 向 量 : 

w <= [wu sw ws] 
就 可 以 写成 上 面 的 向 量 内 积 形式 。 上 面 的 线性 映射 实际 上 就 是 线性 回归 ,最 后 加 上 一 维 , 单 
调 的 logistic 函数 并 不 能 改变 这 是 线性 模型 的 本 质 。 样 本 属于 正 样 本 的 概率 为 

p (у = 1 |x) = h(x) 
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属于 负 样 本 的 概率 为 
p(y =0 |x) =1—h(x) 
其 中 ,y 为 类 别 标签 , 取 值 为 1 或 者 0, 分别 对 应 正 负 样本 。 样 本 属于 正 样本 和 负 样 本 概率 值 











比 的 对 数 称 为 对 数 似 然 比 : 
1 
pO = 1| x) 1+ exp(— w! x) т 
In $30 = 01 In 1 we 


1 = 
1+ exp(— w'x) 


分 类 规则 : 如 果 正 样本 的 概率 大 于 负 样 本 的 概率 , 即 
h(x) > 0.5 
则 样本 被 判定 为 正 样本 ,否则 被 判定 为 负 样 本 。 这 等 价 于 


h(x) p(y = 1| x) 
1—А(х) ply = 0 | x) 








> 1 


也 就 是 下 面 的 线性 不 等 式 : 
wx > 0 

因此 ,logistic 回归 是 一 个 线性 模型 。 

假设 训练 样本 集 为 (x; оу) ,i 二 1,…,L, 其 中 ,x; 为 n 维特 征 向 量 ,y; 为 类 别 标签 , 取 值 为 
1 或 0。 给 定 参 数 w 和 样本 特征 向 量 x .样本 属于 每 个 类 的 概率 可 以 统一 写成 如 下 形式 : 

bly | xw) = (һ(х))”(1—(х))! >” 

证 明 很 简单 , 令 y 为 1 或 0, 上 式 分 别 等 于 样本 属于 正 负 样 本 的 概率 。logistic 回归 输出 
的 是 样本 属于 一 个 类 的 概率 ,而 样本 的 类 别 标签 为 离散 的 1 或 者 0, 因此 ,不 适合 直接 用 欧 
氏 距 离 误 差 来 定义 损失 函数 ,这 里 通过 最 大 似 然 估计 来 确定 参数 。 由 于 样本 之 间 相 互 独立 ， 
训练 样本 集 的 似 然 函 数 为 


1 
L(w) = ПЕЛЕ ,w) = TT ard ice 
这 个 函数 对 应 Fn 重信 努 利 分 布 。 对 数 似 然 丽 数 为 
fw) = InL(w) = 5 Gata) 4- (1— y)InC1 — AG) 


这 个 函数 称 为 二 项 式 对 数 似 然 函 数 (Binomial Log-Likelihood), ESR jZ PR CB IK 
值 ,等 价 于 求解 如 下 最 小 化 问题 ， 





min, — f(w) 
可 以 证 明 这 个 目标 函数 是 凸 函 数 。 下 面 分 两 种 情况 进行 证 明 。 对 于 任何 一 个 样本 ,如 
Ж y; 二 0, 即 样本 是 负 样 本 ,有 
yilnh(xi) + (1 — y;)ln (1 — h(x,)) = In (1—Л(х;)) 








函数 的 梯度 为 


Уа =) = — 1 


1—Л(х;) ( 
这 里 利用 了 logistic 函数 的 导数 公式 。 函 数 的 Hessian 矩阵 为 
V?In(1— Ax) V C— A(x; ) x) h(x,)(1 — h(x:))X 


如 果 单 个 样本 的 特征 向 量 为 x; 一 [xra ,zz ,… ms 1^ H EE X DN 





1)h(x,)(1—hh(x;))x, =— he) x 
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则 一 In(Q1 一 h(xi)) 的 Hessian 矩阵 为 
h(x) (1—AhG))X 
ABE X 可 以 写成 如 下 乘积 形式 ， 
Xxx 
对 任意 不 为 0 的 向 量 x 有 
Fo =r a = aa = (хх) (Тху 20 
SKIT E X FEE, КШ T 
h(x,)(1—h(x,)) > 0 
因此 , Hessian 矩阵 半 正 定 , 上 面 的 函数 是 凸 函 数 。 下 面 考虑 另外 一 种 情况 ,如 果 y; = 
1, 则 有 














yilnh Ge) + (1 — y, )ln(1 — Ar) = InhCx;) 
Hessian 矩阵 为 
vilnh(xi) = V (1 — h(xi))xi (= 1)h(x,)(1 — h(x,))X 
这 里 矩阵 X 的 定义 与 前 一 种 情况 相同 。 因 此 ,一 lnh,(xi;) 的 Hessian 矩阵 为 
Bm (1 = hy Gc) )X 








Ж X АКЕЛ Е, HH F 
h(xi)(1—h(x)) > 0 

因此 ,这 个 函数 是 凸 函数 。 因 为 所 有 的 

yilnh(x;) — (1 — y:n — hCx;)) 
都 是 凸 函 数 , 由 于 凸 函数 的 非 负 线性 组 合 还 是 凸 函数 ,所 以 目标 函数 是 凸 函 数 ,这 个 最 优化 
问题 是 不 带 约束 条 件 的 凸 优化 问题 。 如 果 使 用 欧 氏 距离 作为 损失 函数 , 则 不 能 保证 为 凸 函 
数 ,这 是 使 用 最 大 似 然 估计 ( 即 交 叉 焙 ) 最 主要 的 原因 。 可 以 使 用 梯度 下 降 法 求解 ,目标 函数 
的 梯度 为 





1 
“vd (yilnh(x,) + (1— yi)ln (1 h(x) )) 


1 











> (эко; Лх) (1 hG)x + (1.73) C DhG;) (1 мх) ) 


1 
1—h(x;) 


(yi (1—AG;)x; — (1 — yi)h Gi xi ) 


- > (h (х,у — ух) 
最 后 得 到 权重 的 梯度 下 降 法 的 迭代 更 新 公式 为 
Witt = W, 一 ЭЭ (hy Gc) — yi)xi 


w 的 初始 值 可 以 设 为 全 为 1 的 向 量 ， 或 者 采用 更 复杂 的 方法 初始 化 。 梯度 下 降 法 每 迭 
代 一 次 要 用 到 训练 集 所 有 的 样本 ,如 果 样 本 数量 很 大 速度 会 非常 慢 。 作 为 改进 可 以 使 用 随 
机 梯度 下 降 法 ,每 次 选择 一 部 分 样本 参与 迭代 ,这 种 技术 在 第 15 章 中 详细 讲述 。 除 了 梯度 
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下 降 法 这 种 一 阶 优 化 技术 ,还 可 以 使 用 牛顿 法 及 其 变种 ,如 BFGS 算法 ,在 后 面 的 L2 正则 
化 logistic 回归 中 会 详细 讲述 。 


11.2 正则 化 logistic 回归 


11.2.1 对 数 似 然 函数 

11.1 节 介 绍 的 标准 logistic 回归 可 能 会 面临 过 拟 合 问题 ,可 以 为 损失 函数 加 上 正则 化 
项 ,得 到 正则 化 logistic 回归 。 

在 这 里 采用 另外 一 种 形式 的 似 然 函 数 。 假 设 二 分 类 问题 两 个 类 的 类 别 标签 为 十 1 和 
一 1 ,前 面 一 种 写法 的 类 别 标签 是 0 和 1。 一 个 样本 为 每 一 类 的 概率 可 以 统一 写 为 


1 


=+1 | x,w) = 
ЕЕЕ йу ЕУ 


样本 是 正 样本 的 概率 为 
ply =+ 1 | x.w) = 
样本 是 负 样 本 的 概率 为 


ply 1 | x,w) = 





1 
1 十 exp( 一 (wx 十 0)) 





1 
1+ exp(w'x +b) 


给 定 一 组 训练 样本 的 特征 x, 以 及 它们 的 类 别 标签 y; logistic 回归 的 对 数 似 然 函 数 为 





一 ina + expC— yi Ow! x; + b))) 
xe cb BC B Bi 26 fr eR FB a 


ти Ума + expC— y; Ow! x; +b))) 
下 面 给 出 推导 过 程 。 根据 前 面 给 出 的 概率 计算 公式 ， 给 定 一 组 样本 ,可 以 得 到 似 然 函 数 为 


1 


1 
L(w,b) = 
09:0) П 1+ exp(— y, Qr! x, + b)) 





对 数 似 然 函数 为 


1 


£ 
I 1 f P 
Ind pecs ЕЁ» 之 md + exp(— y; (w! x; + b))) 


AR E PR BAY BA LAE fr F oR FK 0. PR Z A DIC] C tH EC 380. Н PB 














fwb = Уа + exp y Q x, + b))) 
为 简单 表述 ,对 特征 向 量 和 权重 向 量 进行 扩充 ,定义 如 下 扩充 后 的 x 和 w: 
x* |а, 
w < [w*,5] 
目标 函数 可 以 简化 为 
Sina bers) 
1t 11.2.2 Eee eee 因此 训练 时 求解 的 是 一 个 凸 优化 


问题 。 
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11.2.2 L2 正 则 化 原 问题 


为 了 防止 过 拟 合 ,为 上 面 的 目标 参数 加 上 L2 正则 化 项 ,得 到 L2 正则 化 的 目标 函数 : 
d 
2 
其 中 ,C 为 一 个 人 工 设 定 的 大 于 0 的 惩罚 因子 ,用 于 平衡 训练 样本 ,损失 函数 前 半 部 分 是 正 
则 化 项 。 从 另 一 个 角度 看 ,这 个 惩罚 因子 为 训练 样本 加 上 了 权重 。 下 面 我 们 证 明 如 下 允 数 
是 凸 函 数 : 


1 
min, (Ww) = =w'w+C >) Ind + es) 
i=l 


Һа ета) 











该 函数 的 梯度 为 
1 
Vin (1+ eos ) 1+ =» e C= E l+ enn y 
Hessian 和 矩阵 为 


ез ч 
一 ywTx，、2 x 
(1+ e») 


ERE X їй URL 11. 1 节 中 相同 ,已 经 证 明 它 是 半 正 定 矩 阵 。 由 于 


V?ln (1 十 en) = 


因此 ,Hessian 矩 阵 是 半 正 定 和 矩阵, 函数 是 是 函数。 凸 函 数 的 非 负 线 性 组 合 还 是 凸 函 
数 ,因此 ,函数 


1 
суа +e") 
i=l 


ЖЕ PRC, TE WU (EXER Л T i PR 3. ЕН КЇ #17 EL РА KOE Ta р 8. Ж A KI C 4k y n 
梯度 下 降 法 He A PE BE 、. 拟 牛顿 法 都 可 以 求解 此 问题 。 

当 问 题 的 规模 很 大 时 ,常规 的 算法 都 面临 效率 问题 。 如 果 训 练 样本 数 和 特征 向 量 维 数 
都 非常 大 ,寻找 一 个 高 效 的 求解 算法 非常 重要 。 文献 [2] 提 出 了 用 可 信 域 牛顿 法 (Trust 
Region Newton Methods) 求 解 此 问题 , 它 是 截断 牛顿 法 的 一 种 。 前 面 已 经 推导 过 目标 函数 
的 梯度 和 Hessian 矩阵 ,为 了 表述 简洁 ,写成 向 量 和 矩阵 形式 。 目 标 函 数 的 梯度 为 

V fO) = NUT NS — 1) ух; 
Hessian 矩阵 为 
Vv? fw) = I+ CX" DX 
其 中 ,I 为 n KEMERE ;о 2 sigmoid 函数 
о (yw x;) = (14 ems)? 
ABI X 为 所 有 训练 样本 的 特征 向 量 组 成 的 ! Хп 和 矩阵 ,每 一 行为 一 个 样本 : 
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D 为 对 角 和 矩阵 , 主 对 角 线 元 素 为 
了 :一 oa (yiw'x;) (1—о (yw*x;)) 

这 是 一 个 /Xn 的 和 矩阵。 前 面 已 经 证 明 不 带 正则 化 项 的 Hessian 矩阵 半 正 定 , 和 矩阵 工 严 
格 正定 ,因此 目标 函数 的 Hessian 和 矩阵 严格 正定 , 故 目 标 函 数 的 Hessian 矩阵 可 逆 。 牛 顿 法 
按 如 下 公式 更 新 权重 向 量 的 值 : 

wt — wi st 
其 中 , 为 迭代 的 次 数 ;s* 为 牛顿 方向 , 它 是 如 下 线性 方程 组 的 解 : 
V? fws =— VF CW) 

标准 牛顿 法 的 更 新 方法 可 能 会 存在 两 个 问题 。 

(1) 序列 w* 可 能 不 会 收敛 到 一 个 最 优 解 , 它 甚至 不 能 保证 函数 值 会 按照 这 个 序列 
递减 。 

(2) 矩阵 XT DX 一 般 是 一 个 密集 矩阵 ,此 时 Hessian 矩阵 规模 太 大 不 便于 存储 ,求解 上 
述 线性 方程 组 是 个 问题 。 

解决 第 一 个 问题 可 以 通过 调整 牛顿 方向 的 步 长 来 实现 ,目前 常用 的 方法 有 两 种 : 直线 
搜索 和 可 信 区 域 法 ,在 这 里 采用 了 可 信 区 域 法 。 

对 于 第 二 个 问题 ,有 两 类 方法 求解 线性 方程 组 : 直接 法 (如 高 斯 消 元 法 ) 和 迭代 法 (如 共 
ЖДУ. 。 和 迭代 法 的 主要 步骤 是 计算 Hessian 矩阵 和 向 量 s 的 乘积 : 

V'f(Ow)s = (I+ CXTDX)s = s+C • X'(D(Xs)) 

由 于 矩阵 X fiic «ASH TED Hessian 矩阵 就 可 以 计算 上 面 的 矩阵 和 向 量 乘 法 。 对 于 大 
规模 logistic 回归 问题 , 迭 代 法 比 直接 法 更 好 。 在 所 有 的 和 迭代 法 中 , 共 恩 梯度 法 是 目前 在 牛 
顿 法 求解 中 最 常用 的 。 

整个 优化 算法 有 两 层 循环 和 迭代 ,外 层 循 环 是 带 直 线 搜索 的 牛顿 法 ,在 每 个 外 层 迭 代 中 ， 
内 层 循环 的 共 斩 梯度 法 用 于 计算 牛顿 方向 。 在 外 层 和 迭代 的 早期 阶段 ,用 近似 的 牛顿 方向 进 
行 代 替 , 这 种 方法 称 为 截断 牛顿 法 。 

可 信 域 牛顿 法 是 截断 牛顿 法 的 一 个 变种 ,用 于 求解 带 界限 约束 的 最 优化 问题 。 在 可 信 
域 牛 顿 法 的 每 一 步 迭 代 中 ,有 一 个 迭代 序列 w^ ,一 个 可 信 域 的 大 小 Ai ,以 及 一 个 二 次 目标 
РАЖ: 





als) = (V f (и) ) ss 72 f (whys 


这 个 式 子 可 以 通过 泰勒 展开 得 到 ,忽略 二 次 以 上 的 项 ,这 在 第 2 章 已 经 介绍 过 ,这 是 对 
函数 下 降 值 
f(w'+ s) — f(w*) 
的 近似 。 算 法 寻找 一 个 s* ,在 满足 约束 条 件 | s | <A, 下 近似 最 小 化 gi(s)。 接 下 来 检查 如 
下 比值 以 更 新 w MA: 
в = f wrest w+) 
这 是 函数 值 的 实际 减少 量 和 二 次 近似 模型 预测 方向 导致 的 函数 减少 量 的 比值 。 和 迭代 方 
向 可 以 接受 的 条 件 是 o, 足够 大 ,由 此 得 到 参数 的 更 新 规则 为 
gic ws, рь 2 т 


k 


wes pi < m 


А 
=a 
第 11 章 线性 模型 231 


其 中 ,m 是 一 个 人 工 设 定 的 值 。A 的 更 新 规则 取决 于 人 工 设 定 的 正常 数 思 A pe HP: 
m ml 
A, AY BORE ATA XE BJ E FF Жо, 02 403 ;其 中 : 
о <o, < ] < os 
可 行 域 的 边界 A, 的 更 新 规则 为 
Am € [amin { || 5* 1 ,Д, }.о0:8,]. ШЖ o < 
Am € [nA 03A] ШЖ оь Є Cn e») 
Ака € [4 o; A, ] + 如 果 оь = т 
3t He Fi BE TE JA F SER AE ШЇ Jy 1]. it EE — ЕЙ Hessian 矩阵 和 向 量 的 乘法 
V° /OwDdi, H T 
r =— Vf (wt) - V! f (w') ғ 
3x {Н 3& He A В BE TR IRL Jer ШИ 2 r. DRE UR PIE LE ЖЗ 
l| —Vf(Qw')-v'f sl s & || V f (wt) Il 
Hopes 是 线性 方程 组 的 近似 解 。 一 般 设 置 初 值 为 0, 因此 有 
el < “Vz 
求解 L2 正则 化 logistic 回归 原 问题 的 可 信 域 牛顿 法 完整 流程 如 下 。 


设置 初始 值 w 
循环 ,一 0.1.… 
如 果 Vf (W) 一 0, 则 已 经 达到 极 值 点 ,停止 循环 
JI Jk S b JE e A TAS IRF AFR PM sh 
ming: (s). 181 «A 
计算 Pk 
用 牛顿 方向 更 新 参数 wtw 
更 新 可 信 域 的 范围 Ari 
结束 
Si Ar 7T 11 АО JA B EE ELE HF 。 
ЖЖ E<1,A,>0, RE $*—0,r ——Vf (wt) d =r 
循环 ,i 二 0,1,… 
如 果 || <& FV f (w*) || i 557, 5 RH 
3 3E a= || ri 1*7 ((d)7 V? f (wt)d:) 
TES —s аа 
de | 5 || SAH = 使 得 sid! || =A, 
输出 st=sit+cd' ,停止 
计算 rit =r'—a,V? f (wt )d: 
HH B= Irt 2/I rl 
HI din =r ва 
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可 信 域 牛顿 法 和 L-BFGS 相 比 有 更 快 的 收 和 敛 速 度 , 因 此 ,更 适合 大 规模 稀疏 特征 的 
logistic 回归 问题 求解 。 
11.23 L2 正则 化 对 偶 问 题 
利用 Fenchel 对 偶 , 可 以 得 到 L2 正则 化 logistic 回归 的 对 偶 问 题 为 
min, Dig(a ) = -а'0а + p2 апа; + > (C—a;)In (C—a;) 
0<a,<C, i=1,-,1 
限于 篇 幅 , 不 在 这 里 进行 详细 推导 , 感 兴趣 的 读者 可 以 查阅 相关 资料 。 其 中 ,C 为 原 问 
题 中 的 惩罚 因子 ,矩阵 Q 定义 为 
0; = VYX X; 
这 和 支持 向 量 机 的 对 偶 问题 相同 。 如 果 定 义 
0ln0 = 0 
上 式 可 以 简化 为 


1 
min, Diz (а) = -а'0а + У) Caine; + (C—a;)In(C — a) 
i=1 


0<a,<C, i= 1,41 
E tí KY EL gs PR и А BB PRET ЛА КЕЕ OR RFA fli D (b 77 s n JE p 
度 法 , 拟 牛 顿 法 相 比 ,坐标 下 降 法 有 更 快 的 迭代 速度 ,更 适合 大 规模 问题 的 求解 。 下 面 介绍 
带 约 束 条 件 的 坐标 下 降 法 的 求解 思路 。 考 虑 如 下 带 线性 约束 的 最 优化 问题 . 
minf(a) 
Aa=b 
0 < a< Се 
优化 向 量 a 为 n HE] ht. RER Н) CREE А 为 m Xn ДИЕ РЕЯ НОЕ CI] ht 
b у т 维 向 量 , 向 量 e 是 一 个 分 量 全 为 1 的 维 向 量 ,C 是 一 个 大 于 0 的 常数 。 坐 标 下 降 法 
的 思路 是 每 次 迭代 时 更 新 a 部 分 变量 的 值 ,这 比 同时 优化 所 有 变量 要 简化 很 多 。 
极端 情况 下 ,如 果 每 次 只 优化 一 个 变量 ,上 面 的 对 偶 问题 每 次 需要 优化 的 子 问 题 为 单 变 
量 的 极 值 问题 : 


ming (z) = (а +z)ln (c, + z) + (c; — z)ln (c; — z) 4 са + bz 





—с<=<с; 
其 中 ,常数 











Cl Qi. C2 C—a;,. a Qu. b (Qa ); 
因为 目标 函数 含有 对 数 函 数 , 上 面 的 函数 是 一 个 超越 函数 ,无 法 给 出 公式 解 。 如 果 采 用 
牛顿 法 求解 上 面 的 问题 АК ДЕК ERA RRS c асо ,和 迭代 公式 为 

















H = z +d 
wae g (=) 
g (2) 


其 中 ,k 为 迭代 次 数 ,V xzE (76.6). TIRES H b R BC — t Se 3 1 — Dr Sp 3 I 


А 
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ete 2) = az ++, 


€1 Teo 
(c, + 2) (с — z) 


为 了 保证 牛顿 法 收敛 ,还 需要 加 上 直线 搜索 ,检查 函数 值 是 否 充 分 下 降 。 
11.2.4 L1 正 则 化 原 问 题 
L1 正则 化 logistic 回归 求解 如 下 不 带 约束 的 最 优化 问题 : 


g'(z) = a+ 


min, Iwi, +d) In (1 +e ) 


目标 函数 前 半 部 分 为 L1 正则 化 项 ， 即 绝对 值 之 和 ， ;C 为 惩罚 因子 ,是 一 个 大 于 0 的 人 工 
设 定 参数 。 因 为 绝对 值 函 数 不 可 导 , 所 以 ,上 面 的 目标 函数 在 0 点 是 不 可 导 的 。 下 面 证 明 ， 
该 问题 是 凸 优化 问题 。 绝 对 值 函 数 是 凸 函数 ,多 个 绝对 值 函 数 的 和 也 是 凸 函 数 ,因此 ,正则 
化 项 是 是 函数。 前 面 已 经 证 明 上 面目 标 函数 的 后 半 部 分 是 上 号 函数, 因此 ,整个 函数 是 凸 函 
数 。 该 问题 是 不 带 约束 条 件 的 凸 优化 问题 。 

可 以 采用 坐标 下 降 法 求解 。 由 于 





Ума bers = > Inad +e) + > Ind + es) 


i=l,y;=1 y --1 


i=l, 

: T T 
У) dnd +e7s)—In(Gq+ ea) 
d 


і=1 


1 1 
= Dyin be") + p Ow x) 


To 


因此 ,目标 函数 可 以 写成 


fon = lwla воан) р> wi x,) 


s=- 


坐标 下 降 法 每 次 选择 向 量 w 的 一 个 分 量 进 行 优化 。 假设 选中 的 分 量 下 标 为 j ,这 相当 
于 最 小 化 单个 变量 的 目标 函数 : 
fO ze;) — fiw) 


1 
= | xo; +z | 一 | w; са + eres )+ b» (十 26,07 x) 一 


а» =—1 


cina ceto 之 win) 


= |w t z| +L Gwe 





== |w + z| +1 Ow) +55 (0. w)e* +c 


向 量 e; 的 第 j 个 分 量 为 1, 其 他 分 量 为 0,c 是 一 个 常数 。 上 式 的 最 后 一 步 用 函数 在 0 点 
处 的 二 阶 泰勒 展开 近似 代替 函数 L;(z,w)。 函 数 L;(z,w) 和 它 的 一 阶 导 数 、 二 阶 导 数 分 
别 为 
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1 
L; (zw) =C (Dd) Ind +e) + У) (w+=e;)'xi) 
i=l re 


hy 7-1 





£ 
Low) - c [> — + > x) 


т 
+з е" +1 й»=—1 


1 
iio» = c [> [ 一 - Je] 








1 (е9 +1 
通过 将 目标 函数 近似 成 二 次 函数 ,根据 导数 为 0 的 极 值 条 件 , 上 面子 问题 的 最 优 搜索 方 
向 为 
L5(O.w) +1 , Й 
一 KK) Li (0,.w)+ 1 < L;(0,w)xo; 
d=) OWTl, ,00,w—1<L (о,юш, 

L'O.w) 

— wj; 其 他 


接 下 来 使 用 直线 搜索 确定 最 优 步 长 。 文 献 [4] 对 logistic 回归 的 各 种 求解 算法 进行 了 
比较 , 感 兴趣 的 读者 可 以 进一步 阅读 。 
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下 面 通过 实验 来 演示 logistic 回归 的 使 用 ,该 例子 使 用 liblinear 库 的 train. exe 程序 。 
liblinear 接受 与 libsvm 相同 的 数据 格式 ,在 这 里 不 重复 介绍 。 同 样 地 ,我 们 使 用 从 libsvm 
的 官网 下 载 的 ala 数据 集 。train 程序 支持 logistic 回归 和 线性 支持 向 量 机 两 大 类 算法 ,其 
命令 行为 

train [options] training set file [model file] 


其 中 ,Loptions] 为 可 选 命令 行 参数 , 接 下 来 会 详细 介绍 。training_set_file 为 训练 样本 数据 
文件 ,与 libsvm 格式 相同 ,需要 注意 的 是 ,logistic 回归 只 支持 二 分 类 问题 。[model_file] 为 
可 选 参数 ,为 保存 的 模型 文件 。 

[options] 支 持 以 下 参数 。 

-s, 求 解 器 的 类 型 。 对 于 多 类 分 类 问题 : 0 为 求解 L2 正则 化 logistic 回归 原 问 题 ;1 为 
求解 L2 正则 化 L2 损失 函数 支持 向 量 机 对 偶 问题 ;2 为 求解 L2 正则 化 L2 损失 函数 支持 向 
量 机 原 问 题 ;3 为 求解 L2 正则 化 L1 损失 函数 支持 向 量 机 对 偶 问题 ;4 为 求解 Grammer 和 
Singer 的 支持 向 量 机 ;5 为 求解 L1 正则 化 L2 损失 函数 支持 向 量 机 分 类 问题 ;6 为 求解 L1 
正则 化 logistic 回归 问题 ;7 为 求解 L2 正则 化 logistic 回归 对 偶 问 题 。 

对 于 回归 问题 ,11 为 求解 L2 正则 化 L2 损失 函数 支持 向 量 回归 原 问 题 ;12 为 求解 L2 
正则 化 L2 损失 函数 支持 向 量 回 归 对 偶 问 题 ;13 为 求解 L2 正则 化 L1 损失 函数 支持 向 量 回 
归 对 偶 问题 。 

-c, 正 则 化 项 的 系数 ,默认 值 为 1。 

-p,e-SVR 的 参数 。, 默 认 值 为 0.1. 

-e, 用 于 算法 迭代 终止 的 判定 条 件 , 对 于 不 同 的 求解 器 类 型 有 不 同 的 含义 。 

-B, 是 否 增加 偏 置 项 。 
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-wi, 各 个 类 的 权重 系数 。 
-v. Je f dU n 折 交 又 验证 。 
-C, 寻 找 参数 。 








各 种 类 型 的 求解 器 以 及 上 面 这 些 参数 的 详细 信息 将 在 后 面 的 源 代码 分 析 中 介绍 。 在 这 
里 ,设置 -s 为 0, 即 使 用 求解 L2 正则 化 logistic 回归 。 将 下 载 的 ala 和 ala.t 复制 到 
liblinear 的 Windows 目录 下 ,输入 命令 : 























train -s 0 ala ala model 


程序 运行 结果 如 图 11. 1 所 示 。 





图 11.1 logistic 回归 的 训练 


屏幕 上 显示 的 是 可 信 域 牛顿 法 的 迭代 信息 。 打 开 训 练 生成 的 文件 ,内 容 如 下 (注意 ,这 


里 只 显示 了 一 部 分 ): 


solver type L2R LR 
nr class 2 

label 1-1 

nr feature 119 

bias -1 

w 
-1.186453063332046 
-0.5143822392120447 


其 中 ,solver_type 是 求解 器 的 类 型 ,在 这 里 是 L2R_LR, 即 L2 正则 化 logistic 回归 。nr_ 
class 是 类 型 数 ,在 这 里 值 为 2。label 是 类 别 标签 的 各 种 取 值 ,在 这 里 为 十 1 和 一 1, 分 别 表示 
正 样本 和 负 样 本 。nr_feature 是 特征 向 量 的 维 数 ,在 这 里 是 119. 

接 下 来 是 训练 得 到 的 模型 参数 。bias 是 偏 置 项 p 的 值 , 在 这 里 值 为 一 1。w 是 权重 数 
组 ,与 特征 向 量 的 维 数 相等 。 

接 下 来 使 用 predict. exe 程序 对 上 面 训 练 的 模型 进行 测试 ,测试 集 使 用 ala. t 文件 。 


predict 的 命令 行为 








predict [options] test file model file output file 


其 中 ,[options] 为 可 选 命令 行 参数 ,下 面 详细 介绍 。 
-b, 是 否 进行 概率 估计 ,0 为 不 进行 概率 估计 ,1 为 进行 概率 估计 ,默认 值 为 0。 
test_file 为 测试 样本 集 文件 ;model_file 为 模型 文件 ;output_file 为 预测 结果 文件 。 输 


入 命令 
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predict ala.t ala mode1 ala predict 


程序 运行 结果 如 图 11. 2 所 示 。 





图 11.2 logistic 回归 的 分 类 效果 


在 屏幕 中 显示 出 了 分 类 的 准确 率 , 在 这 里 是 84. 245406. FII ala predict 文件 ,可 以 看 
到 每 个 样本 的 预测 结果 。 可 以 调整 训练 参数 ,包括 正则 化 类 型 以 及 正则 化 项 的 权重 系数 , 观 
察 不 同 参数 时 的 分 类 效果 。 


11.3 线性 支持 向 量 机 


使 用 高 斯 核 的 支持 向 量 机 虽然 有 更 高 的 精度 ,但 是 在 支持 向 量 的 数量 很 大 时 会 面 
临 计算 效率 的 问题 。 线 性 支持 向 量 机 "中 因为 直接 使 用 一 个 线性 函数 预测 ,从 而 规避 
了 此 问题 。 


11.3.1 L2 正 则 化 L1-loss SVC 原 问题 


第 10 章 中 我 们 从 最 大 化 分 类 间隔 的 目标 推导 出 了 支持 向 量 机 的 原 问题 ,通过 拉 格 朗 日 
对 偶 得 到 了 对 偶 问题 ,本 章 将 从 另 一 个 角度 来 定义 支持 向 量 机 的 优化 问题 。L2 正则 化 L1 
损失 函数 线性 支持 向 量 机 求解 如 下 最 优化 问题 : 

min, lw) w+ c» (max (0.1 一 yw x; )) 
其 中 ,C 为 惩罚 因子 。 目 标 函 数 的 第 一 部 分 为 正则 化 项 ,第 二 部 分 为 真正 的 损失 项 ,是 一 次 
函数 。 上 述 形式 的 损失 函数 称 为 hinge loss, 即 合 页 损失 函数 。 其 意义 为 , 当 


1 — уге x, < 0 





即 当 样本 的 间隔 大 于 1 时 : 
уге x; > 1 
该 样本 的 损失 是 0; 和 否则 样本 的 损失 是 1 一 ww7xi。 这 个 问题 和 第 10 章 定义 的 线性 不 
可 分 时 的 支持 向 量 机 原 问 题 是 等 价 的 。 如 果 令 
& = max (0.1 — уютх;) 


上 面 的 目标 函数 可 以 写成 





1 

2. d S, 
min, 3"w +C > & 
ЇЇ £ = max (0,1 一 wwTxi) 又 等 价 于 


zo 


^om 


z1—yw'x, 


А 


这 就 是 第 10 章 中 讲述 的 约束 条 件 : 因 此 ,这 种 表述 的 支持 向 量 机 和 第 10 章 中 的 模型 是 
等 价 的 。 
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11.3.2 L2 正 则 化 L2-loss SVC 原 问题 


类 似 地 ,L2 正则 化 L2 损失 函数 线性 支持 向 量 机 求解 如 下 最 优化 问题 ; 
1 
jim. iv»-cl (max(0,1— ym x, 
i=1 


目标 函数 的 第 一 部 分 为 正则 化 项 ,目标 函数 的 第 二 部 分 为 真正 的 损失 项 ,这 是 一 个 二 次 函 
数 ,其 意义 和 L1 损失 函数 相同 。 可 以 采用 可 信 域 牛顿 法 求解 此 问题 ,上 述 目标 函数 的 梯度 为 
w+2CXT.: (Xi: w— yi) 
集合 工 定义 为 
I= (¿| 1— ywx > 0} 
即 满足 上 面 不 等 式 的 样本 下 标 集合 。y 为 所 有 样本 的 类 别 标签 向 量 , 和 矩阵 X 为 训练 样本 的 
特征 向 量 按 行 组 成 的 矩阵 : 
[1] 
Х=|: 
M 
上 面 的 损失 函数 不 是 二 阶 可 导 的 ,为 了 使 用 牛顿 法 ,定义 如 下 广义 Hessian 矩阵 ， 
I+2CXTDX = I+ 2CXT.: DXi,: 
其 中 ,I 为 n 阶 单位 矩阵 ,D 为 n 阶 对 角 和 矩阵 ,其 对 角 线 元 素 为 
l, €I 
k. i€I 


Hessian 矩阵 与 向 量 s 的 乘积 为 
S 十 2CXT «iO OG i8) 
其 中 ,Xi,: 为 集合 工 中 的 样本 的 特征 向 量 构成 的 子 和 矩阵 ;Dj 为 集合 IT 中 的 那些 下 标 对 应 的 
元 素 构成 的 子 和 矩阵 。 有 了 函数 的 梯度 以 及 Hessian 矩阵 的 计算 公式 ,就 可 以 用 前 面 讲 述 的 
可 信 域 牛顿 法 对 优化 问题 进行 求解 ,具体 细节 不 再 重复 讲述 。 


11.3.3 L2 正 则 化 SVC 对 偶 问题 
通过 拉 格 朗 日 对 偶 ,L2 正则 化 L2、L1 损失 函数 线性 支持 向 量 机 的 对 偶 问题 都 为 如 下 形式 : 


min, -а'0а—е'а 
O0<a <U, i=1,2,--,l 
其 中 ,0 二 Q 十 D,D 是 一 个 对 角 和 矩阵 ,矩阵 Q 的 定义 和 第 10 章 中 支持 向 量 机 的 对 偶 问题 是 
一 样 的 。 对 于 L1 损失 函数 支持 向 量 机 ,U==C,D; = 二 0, 对 于 L2 损失 函数 支持 向 量 机 ,U= 
oo,D; 二 1/2C。 可 以 采用 坐标 下 降 法 外 求解 此 问题 。 
如 果 每 次 只 优化 一 个 变量 .依次 从 所 有 变量 中 选择 一 个 进行 优化 , 单 变量 的 子 问题 可 以 写成 
min; Daza (ауа gyrum) = +Q,=' EV Румба e+e 


0<a+z<C 
其 中 ,Vv ;Dsvu (a ) 是 梯度 向 量 的 第 i 个 分 量 。 上 面子 问题 的 目标 函数 是 x 的 二 次 函数 ,可 以 
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得 到 最 小 值 的 公式 解 。 容 易 证 明 , 如 果 О. >0, 这 个 问题 的 解 为 
z = min[max[a, 一 Va ) с) 
梯度 的 计算 公式 为 











V Озум (а) = (Qa ), 1 = 2 Оа; —1 
算法 直接 用 公式 求解 的 方法 计算 出 了 单个 变量 最 优化 问题 的 解 , 并 考虑 了 约束 条 件 。 
按照 第 10 章 中 介绍 的 方法 ,在 得 到 了 向 量 a 之 后 ,就 可 以 计算 出 A, 
11.8.4 L1 正 则 化 L2-loss SVC 原 问题 
L1 正则 化 L2 损失 函数 线性 支持 向 量 机 求解 如 下 最 优化 问题 : 
min, || wl; +c), (max (0,1 — yw xi ) )° 
其 中 ,目标 函数 的 前 半 部 分 为 L1 范 数 的 正则 化 项 。 在 liblinear 中 ,求解 上 述 问题 采用 了 坐 
标 下 降 法 。 如 果 只 挑选 出 一 个 变量 ww 进行 优化 ,要 求解 的 子 问题 为 
fw+ze;)— fiw) =| w += |—| w I+C >) bO ze)! —C >) bw 


i€ Kwhze;) i€ I) 


=|w + z| + L,(z,w) +c 





ае |w 4 | +L; (0.w)z +415 (0.w)z? +c 
其 中 ,向 量 e 的 第 j 个 分 量 为 1, 其 他 分 量 全 为 0, 函数 5b 定义 为 


bi(w) = 1— yw x 
集体 I 定义 为 
Iw) = {i | bi(w) > 0) 
上 式 中 最 后 一 步 对 函数 用 二 阶 泰勒 展开 近似 代 蔡 。 函 数 L(x,w) 和 它 的 一 阶 导 数 、 二 阶 导 
数 分 别 为 
Li(zw) = С У) 6,(w+ze;) 
i€ 1 Cwtse; ) 
L/(0.w) ——2C У) yix;bi Cw) 
i€ Iw) 


L; (0,w) = max (2С У) 2,10%) 
i€ Iw) 


上 面子 问题 的 求解 可 以 采用 牛顿 法 。 实 现时 ,在 整个 坐标 下 降 法 中 ,牛顿 法 负责 求解 上 
面 的 子 问 题 。 


135 ”多 类 线性 支持 向 量 机 


前 面 讲述 的 支持 向 量 机 本 质 上 是 二 分 类 器 .在 本 节 中 将 介绍 用 于 多 类 分 类 问题 的 线性 
支持 向 量 机 。 在 第 10 章 中 ,解决 多 分 类 问题 是 通过 多 个 二 分 类 器 实现 的 ,在 这 里 直接 构造 
多 类 问题 的 损失 函数 。 假 设 训练 样本 为 (xi y ,i 二 1,2,… ,1, 其 中 ,x; 为 n 维特 征 向 量 ,类 
别 标签 y,€ {1,2,…,k) ,其 中 ,为 类 型 数 。 多 类 分 类 问题 的 线性 支持 向 量 机 求解 如 下 最 优 
化 问题 : 
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тіп, i» wiw, +сУ) & 
约束 条 件 为 


Wy Xi — WaX; meea—&,i-1Ll12,- 


其 中 : 


1. y =m 
这 可 以 看 成 是 二 分 类 问题 的 推广 ,目标 函数 的 左边 部 分 是 p 个 二 次 函数 的 和 ,每 一 个 
代表 一 个 分 界面 ;右边 是 对 错 分 类 的 惩罚 项 。 分 类 决策 函数 为 
arg MaXm=1,2, 4W X 


通过 拉 格 朗 日 对 偶 , 可 以 将 上 述 问题 转化 为 对 偶 问题 ， 
min, +> | w, |° + >) Detar 


i=l m=1 


k 
Sar =0, Мі = 1,2,--.,1 


ат Си, Vi=1,2,--,li т = 1,2,+е,Ё 
其 中 : 
№, = Marx Vm. а= [al,af ,eat ,al Ü ses at] 

并 且 
0, y #m 
(8, у = т 

可 以 采用 顺序 对 偶 法 求解 该 问题 ,这 也 是 一 种 分 治 法 ,每 次 挑选 出 一 部 分 变量 进行 优 
化 。 上 面 的 对 偶 问 题 有 kX 个 变量 ,规模 非常 大 。 为 此 ,使 用 坐标 下 降 法 将 a 分 解 为 多 个 块 
[23:525 77.2] ЖФ: 

a= [al al b], i—1,2,-4 

每 次 选择 一 个 下 标 i, 然 后 求解 关于 a; 的 最 小 化 问题 ,这 个 问题 有 个 变量 : 

ming, >) FAC)? + Bua? 


1 
т 


B, = жх, +e" — Aa? 
子 问题 的 参数 A AB, [UR E ЖС. ELA E RA POR. HT EVI AGE 
程 中 ,有 界 变量 a? 可 以 被 缩减 ,因此 ,最 小 化 子 向 量 PAY PB UC 1.2.0, 
&} 是 一 个 下 标 子 集 , 即 求解 一 个 有 |U;| 个 变量 的 子 问题 ,让 其 他 变量 固定 ， 
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тїп >) LAC)? + Baa? 
* m€U, ^ 
Doar =— Doar 
m€U, m€U; 
ep <S Су. теп, 
需要 注意 的 是 ,在 坐标 下 降 法 中 并 没有 按照 顺序 来 逐个 优化 cl заз ase Td TENG ( 





,小 的 顺序 打 乱 ,得 到 序列 {x(1) ,x(2),…,x(1)), 然 后 逐次 求解 аказ acy tiae 
这 样 做 能 得 到 更 快 的 收敛 速度 。 
11.3.6 实验 程序 

我 们 用 liblinear 来 演示 线性 支持 向 量 机 的 使 用 ,使 用 的 训练 程序 .预测 程序 和 测试 数据 
与 第 11 章 相 同 train. exe 的 用 法 在 前 面 已 经 介绍 过 了 ,在 这 里 还 是 使 用 ala 数据 文件 。 我 
们 使 用 L2 正则 化 L1 损失 函数 的 支持 向 量 机 ,求解 对 偶 问题 , 即 s 为 2。 输 入 命令 : 


train -s 3 ala ala_model_svm 


程序 运行 结果 如 图 11.3 所 示 。 





图 11.3 线性 支持 向 量 机 的 训练 


在 屏幕 上 显示 了 算法 迭代 信息 ,迭代 次 数 iter 为 169, 目 标 函数 值 为 一 540. 863 528, Ж 
持 向 量 个 数 为 608。 打 开 训 练 得 到 的 模型 ,内 容 如 下 (注意 ,在 这 里 只 显示 了 一 部 分 ): 






nr class 2 

label 1-1 

nr feature 119 

bias -1 

w 
-0.6712184355140607 
-0.4280933369941015 


这 个 模型 的 参数 与 logistic 回归 的 参数 是 一 样 的 .不 再 详细 介绍 。 
接 下 来 对 上 面 生 成 的 模型 进行 测试 ,测试 集 使 用 ala. t。 输 入 命令 : 














predict ala.t ala model svm ala predict svm 


程序 运行 结果 如 图 11.4 所 示 。 





图 11.4 线性 支持 向 量 机 的 预测 








分 类 准确 率 为 83. 8125%。 打 开 结 果 文 件 , 可 以 看 到 每 个 样本 的 预测 结果 。 读 者 可 以 
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在 libsvm 官网 上 下 载 其 他 数据 集 来 训练 自己 的 模型 ,以 及 进行 了 预测。 同样 地 ,可 以 使 用 不 
同 的 参数 ,包括 正则 化 项 的 类 型 和 正则 化 项 的 权重 值 ,观察 不 同 参数 时 的 分 类 效果 。 


11.4 源 代 码 分 析 


liblinear" 中 是 一 个 用 于 大 规模 线性 分 类 问题 的 开源 库 , 它 的 作者 和 libsvm 相同 。 这 个 
库 支持 logistic 回归 和 线性 支持 向 量 机 两 类 算法 ,使 用 C++ 语言 编写 。 它 是 为 大 规模 分 类 
问题 而 设计 ,尤其 适合 大 型 稀疏 数据 集 的 分 类 。 当 训练 样本 的 数量 特征 向 量 的 维 数 都 是 海 


量 时 ,线性 分 类 器 是 最 有 效 的 机 器 学 习 技术 。 


11.4.1 求解 的 问题 


前 面 已 经 给 出 了 各 种 损失 函数 和 正则 化 项 的 logistic 回归 、 线 性 支持 向 量 机 求解 的 问 


题 , 表 11.1 是 对 它们 的 总 结 。 


表 11.1 liblinear 求解 的 各 种 问题 









































算法 类 型 求解 的 问题 求解 算法 
L1 正则 化 LR 原 问 题 坐标 下 降 法 
L2 正则 化 LR 原 问题 可 信 域 牛顿 法 
L2 正则 化 LR 对 偶 问 题 坐标 下 降 法 
L1 正则 化 L2 损失 函数 SVC 原 问 题 坐标 下 降 法 
L2 正则 化 L2 损失 函数 SVC 原 问 题 可 信 域 牛顿 法 
L2 正则 化 Ll 损失 函数 SVC 对 偶 问题 坐标 下 降 法 
L2 正则 化 L2 损失 函数 SVC 对 偶 问 题 坐标 下 降 法 
Ll 损失 函数 SVR 对 偶 问题 坐标 下 降 法 
L2 损失 函数 SVR 原 问 题 可 信 域 牛顿 法 
L2 损失 函数 SVR 对 偶 问 题 坐标 下 降 法 
多 类 SVM 对 偶 问 题 坐标 下 降 法 
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下 面 开 始 分 析 源 代码 ,分 主要 的 结构 和 类 求解 器 和 求解 函数 .全 局 函数 和 接口 函数 3 


部 分 进行 介绍 。 


结构 体 feature node 表示 一 个 特征 项 , 即 特征 向 量 的 分 量 , 与 libsvm 中 的 svm_node 


相同 : 


struct feature node 
{ 
int index; 


double value; 


// 特征 的 编号 


w 
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其 中 ,index 为 特征 的 编号 ,value 是 特征 的 值 。 这 样 设计 是 为 了 适应 特征 向 量 是 稀 芷 
向 量 的 情况 ,采用 这 种 设计 在 存储 空间 和 计算 速度 上 都 有 优势 。 
结构 体 problem 为 训练 样本 集 数据 ,定义 如 下 : 


struct problem 

{ 
int 1l, n; 
double * y; 
struct feature_node * * x; 
double bias; 

e 


// 1 为 特征 向 量 的 个 数 , 即 训 练 样本 数 ,n 为 特征 向 量 的 维 数 


// 样本 标签 值 ,对 于 分 类 问题 ,是 类 别 号 ;对 于 回归 问题 ,是 实数 值 


// 特征 向 量 集 , 每 一 行为 一 个 样本 
// 偏 置 项 b 


结构 体 parameter 为 训练 参数 ,定义 如 下 : 


struct parameter 

{ 
int solver_type; 
double eps; 
double C; 
int nr_weight; 
int * weight_label; 
double * weight; 
double p; 

); 


结构 体 model 为 训练 得 到 的 模型 


struct model 
{ 
struct parameter param; 
int nr class; 
int nr feature; 
double * w; 
int * label; 
double bias; 
}: 


// 求解 器 类 型 

// 算法 迭代 终止 阔 值 
// 惩罚 因子 

// 权重 数组 的 大 小 
// 权重 标签 数组 

// 权重 数组 


定义 如 下 : 


// 训练 参数 

// 类 别 数 

// 特征 向 量 维 数 

// 权重 向 量 w 

// 每 个 类 的 类 别 标签 
// 偏 置 项 b 


类 function 是 损失 函数 ( 即 优化 目标 函数 ) 的 基 类 ,其 功能 是 计算 损失 函数 值 梯度 值 以 
及 Hessian 矩阵 等 ,这 些 值 都 会 用 于 牛顿 法 、 坐 标 下 降 法 和 其 他 算法 的 求解 过 程 。 从 
function 派生 出 了 一 些 类 ,用 于 实现 各 种 损失 函数 ,派生 关系 如 图 11.5 所 示 。 









































function 
i 
12r_Ir_fun 12r_12_sve_fun 12r_12_svr_fun 
11.5 function 类 的 继承 关系 
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下 面 先 看 function 类 的 定义 ,这 是 一 个 虚 基 类 ,所 有 成 员 函 数 都 留 给 派生 类 实现 。 


class function 
{ 
public: 
// 计算 目标 函数 的 值 ,w 为 权重 数组 ,返回 的 是 损失 函数 的 值 
virtual double fun (double * м) =0; 
// 计算 目标 函数 的 梯度 ,w 为 权重 数组 ,g 为 返回 的 梯度 值 
virtual void grad(double * w, double *g) =0; 
// 计算 目标 函数 Hessian 矩阵 与 向 量 的 乘积 ,s 为 传人 向 量 ,Hs 为 返回 的 Hessian 
// 与 向 量 s 的 乘积 
virtual void Hv (double * s, double * Hs) =0; 
// 获取 特征 向 量 的 维 数 , 即 变量 数 
virtual int get nr variable (void) =0; 
virtual ~ function (void) {} 
J; 
这 些 虚 函数 并 没有 实现 ,它们 由 派生 类 实现 。 
类 l2r_lr_fun ЖЖ А function, 实 现 了 L2 正则 化 logistic 回归 原 问 题 的 损失 函数 ,该 函 
Be BIE Hessian 矩阵 的 计算 公式 在 之 前 已 经 介绍 过 。 下 面 来 看 类 的 定义 ， 


class 12r_1r_fun: public function 

{ 

public: 
l2r lr fun(const problem * prob, double * C); 
^12r 1р fun(); 


double fun (double * w); // 计算 目标 函数 值 
void grad(double * w, double *g); // 计算 目标 函数 的 梯度 值 
void Hv (double * s, double * Hs); // 计算 Hessian 和 矩阵 与 向 量 s 的 乘积 
int get nr variable (void); 
private: 
void Xv(double * v, double * Xv); // 计算 мх, 
void XTv(double * v, double * XTv); 
double * C; // 惩罚 因子 ,可 以 为 每 个 样本 定义 一 个 惩罚 因子 ,相当 于 权重 
double * z; // 用 于 存储 z, = W' x, ,这 是 一 个 临时 变量 
double * D; // 临时 变量 ,存储 logistic 函数 的 导数 ,用 于 计算 Hessian 矩阵 
const problem * prob; // 训练 样本 集 , 计 算 损 失 函 数 、 梯 度 要 用 到 整个 训练 集 


le 


函数 fun 用 于 计算 最 优化 目标 函数 的 值 ,传人 参数 为 权重 向 量 ,返回 值 为 函数 的 值 , 实 
现代 码 如 下 : 


double 12r lr fun::fun(double * w) 

t 
inti; 
double f-0; // 损失 函数 的 值 ,累加 每 个 样本 的 损失 
double * y=prob->y; // 类 别 标签 
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} 


int l-prob-»1; 
int w size-get nr variable(); 
Xv (w, z); // 计 算 每 个 Wxi, 存 于 z 中 
// 下 面 的 代码 用 于 计算 L2 正则 化 项 
for(i=0;i<w_size;i++) 
f*-w[i]* w [3]; 
f /=2.0; 
for (1=0;1<1;і++) 
{ 
double yz =y[i] * z[i]; 
if (yz >=0) 


f +=C[i] * log (1 +exp(-yz)); 


else 


// 如 果 yz <0, 则 为 


// 样本 数 
// 权重 向 量 的 维 数 


// 最 后 除 以 2.0 
// 循环 累加 每 个 样本 的 损 函 数值 


// 计算 y: w^ x, 
// ШЖ yz>=0, 为 Cln (ї+е-и ж) 


// 计算 ln (ї+е-”)=1п (e-” =1n (e7)1n (l+e”) 


// Bl -yz+ln (l+e”) 


£+=C[i] * (-yz+log(1 +exp(yz))); 


) 


return(f); 


计算 流程 如 下 。 

COD 计算 < 二 xw, 其 中 ,x 为 训练 样本 的 特征 集合 矩阵 ,每 一 行为 一 个 特征 向 量 (一 个 样 
本 ),w 为 要 求解 的 权重 向 量 , 计 算得 到 的 结果 向 量 存储 在 其 中 。 

(2) 计算 L2 正则 化 项 。 

(3) 循环 累加 每 个 样本 的 损失 函数 ,如 果 是 正 样本 , 则 为 
Cln(1 + e>) 


如 果 是 负 样 本 则 为 


的 计算 公式 参考 11.1.20. МИК: 


С(— yz + In(1 + e*)) 
函数 grad 用 于 计算 目标 函数 的 梯度 。 其 中 ,w 为 权重 向 量 ,g 为 返回 的 梯度 向 量 。 具 体 


void 12r lr fun::grad(double * w, double * g) 


{ 


int 1; 

double * y=prob->y; 

int 1=prob->1; 

int w_size=get_nr_variable(); 
// 循环 对 每 个 样本 计算 
for(i-0;i«l;i**) 


{ 
N 1 
// 计算 = 


+e nes, 


z[i] =1/(1 *exp(-y[il * 2[1])); 


// 样本 的 类 别 标签 
// 样本 数 
// 特征 向 量 的 维 数 


} 


函数 Hv 用 于 计算 Hessian Ж 8 13 [8] B: s 的 乘积 ,其 中 s 为 传人 的 向 量 ,Hs 为 返回 的 结 


D[i] =2[1]* (1-z[i]); 
1 


i -d ————-—1|y-2-yuc-5——— 
// 计算 z dus )s xc 


z[i] -C[i]* (z[i]-1) * y[i]; 
) 
ХТУ (2, g); 
for (i=0;i<w_size;i++) 


gli] =w[i] +g[i]; 


果 。 实 现代 码 如 下 : 


void l2r lr fun::Hv(double * s, double * Hs) 


{ 


} 


int i; 
int l-prob-»1; 
int w_size=get_nr_variable(); 
double * wa =new double[1]; 
Xv (s, ма); 
Ғог (1=0;1<1;і++) 
ма [1] =C[i] * D[i] * wa[i]; 
ХТу (ма, Hs); 
for(i-0;i«w size;it*) 
Hs[i] -s[i] *Hs[i]; 


delete[] wa; 
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// D 中 存放 logistic 函数 的 导数 
-yx 


// 累加 每 个 样本 的 z, 即 x z 


// 最 后 加 上 w 


// 训练 样本 数 
// 权重 向 量 的 维 数 


// 计算 wa= Xs 


函数 Xv 用 于 计算 所 有 样本 的 wx; ,代码 如 下 : 


void l2r lr fun::Xv(double * v, double * Xv) 


{ 


int i; 
int l=prob-> 1; 
feature node * * x=prob->x; 
for(i=0;i<1;i++) 
{ 
feature node * s-x[i]; 
Xv[i]-0; 
while (s-»index!--1) 


í 


// 对 每 个 样本 


// 计算 内 积 


Xv[i]+=v[s->index-1] * s->value; 


Stt; 
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函数 XTv 用 于 计算 XTw, 代 码 如 下 : 


void 12r lr fun::XTv(double * v, double * XTv) 
f 
inti; 
int l-prob-»1; 
int w size-get nr variable(); 
feature node * * x-prob-»x; 
for (i=0;i<w_size;i++) 
XTv[i]-0; 
for(i-0;i«l;i**) // 对 每 个 样本 
{ 
feature node * s-x[i]; 
// 计算 内 积 
while (s->index!=-1) 
{ 
XTv[s->index-1]+=v[i] * s->value; 


Stt; 


) 


Ж 12r 12. sve fun $Æ L2 正则 化 L2 损失 函数 支持 向 量 机 的 损失 函数 ,同样 继承 自 
function 类 。 类 定义 如 下 : 


class 12r 12 svc fun: public function 
t 
public: 
12р 12 svc fun(const problem * prob, double * C); 
^12r 12 svc fun(); 
// 计算 目标 函数 值 
double fun (double * w); 
// 计算 目标 函数 的 梯度 值 
void grad(double * w, double * g); 
// 计算 目标 函数 的 Hessian 矩阵 与 向 量 s 的 乘积 
void Hv(double * s, double * Hs); 
// 返回 特征 向 量 的 维 数 
int get nr variable (void); 
protected: 
// 内 部 辅助 函数 ,用 于 计算 矩阵 和 向 量 乘法 
void Ху (double * v, double * Xv); 
void subXv (double * v, double * Xv); 
void subXTv (double * у, double * XTv); 
double * C; // 惩罚 因子 数组 
double * z; // 临时 变量 
double * D; // 矩阵 了 
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int *I; // 单位 矩阵 工 
int sizeI; 
const problem * prob; // 训练 样本 集 


hi 
函数 fun 计算 目标 函数 的 值 。 代 码 如 下 : 


double 12r 12 svc fun::fun(double * w) 
t 

inti; 

double f-0; 

double * y=prob->y; 

int 1=prob->1; 

int м size-get nr variable(); 

Xv (w, z); // 计算 zi- W x: 

// 计算 то 正则 化 项 部 分 

for(i=0;i<w_size;i++) 

f +=w[i] * w[i]; 
£ /=2.0; 


: 

// 计算 样本 的 L2 损失 值 , 即 CD) (max (0,1— yw x)? 
a 

for(i=0;i<1;i++) 


{ 


z[i] =y[i] * z[i]; // 计算 yw x 
double d =1-z[i]; // 计算 1- yw x, 

// 如 果 1-y.W'x,<0 ,什么 都 不 加 ,和 否则 加 上 CC1- yw x)? 
if (d»0) 


f +=C[i] *d* d; 
) 
return(f); 


) 
函数 grad 计算 目标 函数 的 梯度 。 代 码 如 下 : 


void 12r 12 svc_fun::grad(double * w, double * g) 
{ 
int i; 
double * y=prob->y; 
int 1=prob->1; 
int w_size=get_nr_variable(); 
sizel =0; 
for (1=0;1<1;і++) 
// WERE, z LP FERAS BAR yew x; ,在 这 里 判断 1- yew x; ES 
// ШЖ z[i] >=1, ABE 0, WR, BBA 0 
if (z[i] <1) 
t 
// 计算 z:=Cy: (y: W' x; 7 1) 
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z[sizeI] -C[i] * y[i] * (z[i]-1); 
I[sizeI] =i; 
sizeltt; 
} 
// 计算 gio zix;- Су. (y: W x7 1) xs 
subXTv (z, g); 
// 加 上 w, 即 L2 正则 化 项 的 梯度 
for(i=0;i<w size;i++) 


g[i] =w[i] +2* g[i]; 


} 
函数 Hv 计算 Hessian 矩阵 与 向 量 s 的 乘积 ,其 中 ,s 为 传人 的 向 量 ,Hs 为 返回 的 结果 。 
代码 如 下 : 


void l2r 12 svc fun::Hv(double * s, double * Hs) 
{ 
int i; 
int w_size=get_nr_variable(); 
double * wa =new double[sizeI]; 
subXv (s, ма); 
for(i-0;i«sizel;i-*-*) 
wa[i] -C(I[i]] * wa[i]; 
subXTv (wa, Hs); 
for(i-0;i«w size;it*) 
Hs[i] =s[i] +2* Hs[i]; 
delete[] wa; 


} 
函数 Xv 计算 矩阵 乘法 Xw。 代 码 如 下 : 


void 12r 12 svc_fun::Xv(double * v, double * Xv) 
{ 
int i; 
int l-prob-»1; 
feature_node * * x=prob->x; 
for (1=0;1<1;і++) 
{ 
feature node * s-x[i]; 
Xv[i]-0; 
while (s-»index!--1) 
í 
Xv[i]+=v[s->index-1] * s->value; 


S++; 


函数 subXv 计算 X 的 子 和 矩阵 与 w 的 乘法 。 代 码 如 下 : 


void 12г 12 svc_fun::subXv(double * v, double * Xv) 
{ 
int i; 
feature node * * x-prob-»x; 
for(i-0;i«sizel;it*) 
t 
feature node * s-x[I[i]]; 
Xv[i]=0; 
while (5- > іпаех!=- 1) 
{ 
Ху[і]+=у[5- > іпаех- 1] * s->value; 


stt; 


) 


函数 subXTv 计算 X 的 子 矩 阵 的 转 置 与 w 的 乘法 。 代 码 如 下 : 


void 12r_12_svc_fun::subXTv (double * v, double * XTv) 
{ 
їпї 1; 
int w_size=get_nr_variable(); 
feature_node * * x=prob->x; 
for(i=0;i<w_size;i++) 
XTv[i]=0; 
for (i=0;i<sizeI;i++) 
{ 
feature_node * s=x[I[i]]; 
while (s->index!=-1) 
{ 
XTv[s->index-1]+=v[i] * s->value; 


S++; 


) 
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上 面 两 个 类 都 将 用 于 TRON 类 的 求解 函数 ,为 它 提 供 计算 目标 函数 值 . 梯 度 值 、 


Hessian 矩阵 值 与 向 量 的 乘法 等 运算 的 支持 。 
11.4.3 求解 器 


求解 器 的 实现 是 源 代码 分 析 的 核心 ,分 为 可 信 域 牛顿 法 与 坐标 下 降 法 两 类 。 可 信 域 牛 
顿 法 由 TRON 类 实现 ,坐标 下 降 法 由 各 个 问题 具体 的 求解 函数 实现 。 限 于 篇 幅 ,在 这 里 只 


分 析 一 部 分 求解 器 ,其 他 的 实现 原理 类 似 。 


可 信 域 牛顿 法 由 类 TRON 实现 ,这 个 类 为 L2 正则 化 logistic 回归 和 L2 正则 化 支持 向 
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量 机 的 训练 提供 支持 。 类 定义 如 下 : 


class TRON 


t 


public: 


// 传人 的 是 基 类 function 的 指针 ,可 以 使 用 上 面 两 种 损失 函数 ,eps 为 迭代 精度 
// max iter 为 最 大 迭代 次 数 ,默认 值 为 1000 

TRON(const function * fun obj, double eps =0.1, int max iter =1000); 
^ TRON () ; 

// 这 是 求解 的 接口 函数 

void tron(double * w); 


void set print string(void (* i_print) (const char * buf)); 


private: 


le 


int trcg (double delta, double * g, double * s, double * r); 
ЗЕВС К, Wk tron 调用 


double norm inf (int n, double * x); 


double eps; // Waki E 
int max_iter; // 最 大 迭代 次 数 
function * fun_obj; // 目标 函数 


void info (const char * fmt,-*+); 


void (* tron print string) (const char * buf); 


函数 tron 是 可 信 域 牛顿 法 求解 的 主体 。 其 中 ,w 为 返回 的 权重 参数 ,直接 按照 之 前 的 
公式 进行 。 代 码 如 下 : 


void TRON: :tron (double * м) 


{ 


// 常数 mo. te 

double eta0 =1e- 4, etal =0.25, eta2 =0.75; 

// 常数 ci ,oz ‚оз ,用 于 更 新 可 信 域 的 大 小 A 

double sigmal =0.25, sigma2 =0.5, sigma3 =47 

int п =fun_obj->get_nr_variable();  // 特征 向 量 的 维 数 
int i, cg iter; 

double delta, snorm, one=1.0; 

double alpha, f, fnew, prered, actred, gs; 


int search =1, iter -1, inc -1; 


double * s =new double [n] ; // 牛顿 方向 ,公式 中 的 s* 
double * г =new double [n] ; // 公式 中 的 工 

double * м new = пем double [п]; // 迭代 后 w 向 量 的 新 值 
double * g =new double[n]; // 梯度 向 量 


// w 的 初 值 赋 为 0, 由 于 不 带 约束 条 件 ,这 是 初始 可 行 解 
for (i=0; i<n; i++) 

w[i] =0; 
// 计算 初始 时 的 目标 函数 值 


f -fun obj-»fun(w); 
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fun obj-»grad(w, g); // 计算 初始 时 的 梯度 值 ,9 为 返回 的 梯度 值 
delta -dnrm2 (&п, g, &inc); // delta 为 公式 中 的 A 
double gnorm1 =delta; 
double gnorm -gnorml; 
// 如 果 梯 度 已 经 接近 0, 则 说 明达 到 最 优点 ,直接 返回 
if (gnorm <=ерз * gnorml) 
search =0; 
iter =1; // 迭代 次 数 的 初始 值 
// 开始 迭代 , 主 和 迭代 循环 
while (iter <=max_iter && search) 
{ 
// HX, FASE ВЕЕ UE TO ЖТ AL A BEI о], s 为 返回 的 牛顿 方向 
// 同时 还 返回 了 z, 这 个 向 量 在 后 面 会 用 上 
cg iter -trcg (delta, g, s, r); 
// 将 上 次 的 值 w_new 复制 到 w 中 
memcpy (w_new, w, sizeof (double) * п); 
// 计算 w**=w*+ s*, Bl м пем =one * w_new+s 
daxpy (&n, &one, s, &inc, w new, &inc); 
// 计算 梯度 向 量 与 s 的 内 积 (Vf(w.))'s ,ddot 是 向 量 内 积 函数 ,gs 是 结果 


gs =ddot_(&n, g, &inc, s, &inc); 
// 计算 = (Vf (w.) )'s-s'r),prered 是 公式 中 的 q, (s) 
// r-- V£ (W'y=- V'£(W)s 


prered --0.5* (gs-ddot (&n, s, &inc, r, &inc)); 
// 计算 新 的 函数 值 f (w'+s) 
fnew =fun_obj->fun (w_new) ; 
// 计算 函数 的 实际 减 小 值 £ (w+s)-f(w) ,f 是 上 一 次 的 函数 值 
// actred 是 实际 减 小 值 
actred =f - fnew; 
// 计算 = 的 模 ‖ sl 

snorm -dnrm2 (&n, s, &inc); 
if (iter ==1) 

delta =min (delta, snorm); 
// 计算 
if (fnew -f -gs <=0) 

alpha =sigma3; 
else 

alpha =max(sigmal, -0.5* (gs/ (fnew -f -gs))); 
// 更 新 可 信 域 边界 A ,分 三 种 情况 ,按照 公式 来 计算 
if (actred «eta0 * prered) // px no 

delta =min (max (alpha, sigmal) * snorm, sigma? * delta); 
else if (actred «etal * prered) // gx€ (MM) 

delta =max (sigmal * delta, min (alpha * snorm, sigma2* delta)); 
else if (actred <eta2 * prered) // px 

delta =max (sigmal * delta, min (alpha * snorm, sigma3 * delta)); 
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else // px 之 站 

delta =max (delta, min (alpha * snorm, sigma3 * delta)); 
info("iter $2d act $5.3e pre $5.3e delta $5.3e f $5.3e 191 $5.3e CG $3d\n", 
iter, 


actred, prered, delta, f, gnorm, cg iter); 


// 更 新 w 的 值 
if (actred >eta0* prered) // px? o 
t 
itertt; 
// 更 新 w 的 值 
memcpy (w, w_new, sizeof (double) * п); 
f =fnew; // 更 新 函数 的 值 
fun obj-»grad(w, g); // 重新 计算 梯度 
gnorm =dnrm2_(&n, g, &inc); 
if (gnorm <=eps * gnorml) // Bh e a |F IK E ВИ, CAR 
break; 


} 
if (f «-1.0e* 32) 
{ 
info("WARNING: f <-1.0e+32\n"); 


break; 

} 

if (fabs (actred) <=0 && prered <=0) 

{ 
info ("WARNING: actred and prered <=0Nn"); 
break; 

} 


if (fabs (actred) <=1.0е- 12 * fabs(f) && 
fabs (prered) <=1.0е- 12 * fabs (#)) 


info "WARNING: actred and prered too smallln"); 


break; 


) 
delete[] g; 
delete[] r; 
delete [] м пем; 
delete[] s; 

} 


函数 treg SCR T Ji Bb ES UE OT ASS ERU Ah. Д.в 为 梯 
度 ,s 和 7 是 公式 中 定义 的 向 量 。 实 现代 码 如 下 : 
int TRON: :trcg (double delta, double * g, double * s, double * r) 


{ 


int i, inc =1; 
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int n-fun obj-»get nr variable(); 

double one -1; 

double * d =new double [n]; 

double * Hd =new double [n]; 

double rTr, rnewTrnew, alpha, beta, cgtol; 

// 对 s, г, d 赋 初 值 , 3°=0,r=-VE(m) , d°= r° 
for (i-0; i«n; i**) 

{ 


s[i] =0; 
r[i] =-g[i]; 
dli] =r[i]; 
) 
cgtol =0.1* dnrm2_(&n, g, &inc); //& || V f (we) || 
int cg_iter =0; 
rTr =ddot_(&n, г, &inc, r, &inc); МИР 
while (1) 


{ 

WW | <s, [у f (w.) l 

if (dnrm2_(&n, r, &inc) <=cgtol) 
break; 

cg_iter++; 

LAE VIF (we yd: 

fun_obj->Hv(d, Hd); 

// ai= l ri l/d V? (м) d) 

alpha -rTr/ddot (&n, d, &inc, Hd, &inc); 

// S? +a Ф 

daxpy (&n, &alpha, d, &inc, s, &inc); 

// Ms? | ZA, 

if (dnrm2_(&n, s, &inc) >delta) 

{ 
// 求 解 | tcd! | =Ax 得 到 ,这 是 一 个 一 元 二 次 方程 
info ("cg reaches trust region boundary\n"); 
alpha =-alpha; 
daxpy (&n, &alpha, d, &inc, s, &inc); 
double std -ddot (&n, s, &inc, d, &inc); 
double sts =ddot_(&n, s, &inc, s, &inc); 
double dtd =ddot_(&n, d, &inc, d, &inc); 
double dsq -delta * delta; // (Ax)? 
double гаа -sqrt (std х std +dtd* (dsq-sts)); 
if (std >=0) 

alpha = (dsq -sts)/(std *rad); 
else 
alpha - (rad - std) /dtd; 


daxpy (&n, &alpha, d, &inc, s, &inc); 
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} 


alpha =- alpha; 
daxpy (&n, &alpha, Hd, &inc, r, &inc); 
break; 
} 
а1рһа =-а1рһа; 
// rtt=ri-a,V f (Ww )d: 
daxpy_(&n, &alpha, Hd, &inc, г, &inc); 
ИИ (et yt Bh [кез 
rnewTrnew =ddot_(&n, r, &inc, r, &inc); 
H B = lz A z: [5 
beta =rnewTrnew/rTr; 
// Bid* 
dscal_(&n, &beta, d, &inc); 
// d? -r"*g.d* 
daxpy (&n, &one, r, &inc, d, &inc); 
rTr -rnewTrnew; 
) 
delete[] d; 
delete[] Hd; 


return(cg iter); 


函数 solve 12r lr dual 实现 求解 L2 正则 化 logistic 回归 对 偶 问 题 的 坐标 下 降 法 。 代 码 


ШТ: 


void solve 12г lr dual(const problem * prob, double * w, double eps, double Cp, double 


Cn) 


{ 


int 1 =prob->1; 
int w_size =prob->n; 
int i, s, iter =0; 
double * xTx = пем double [1]; 
int max_iter =1000; 
int * index =new int[1]; 
double * alpha =new double [2 * 1]; 
schar * y =new schar[1]; 
int max inner iter =100; // Newton 内 循环 最 大 迭代 次 数 
double innereps =1е-2; 
double innereps min =min(le-8, eps); 
double upper_bound[3] ={Cn, 0, Cp}; // ЕЖ 
// 给 类 别 标签 赋值 
for(i=0; 1<1; i++) 
{ 

if(prob-»y[i] >0) 

{ 

yli]-*1; 


е1зе 
{ 
yli]--1; 
} 
} 
// 给 а ЖИН 
for(i-0; 1<1; i++) 
{ 
а1рћа [2 * i] =min (0.001 * upper bound[GETI (i)], 1е- 8); 
alpha [2 * i+1] =upper_bound[GETI(i)] -alpha[2* i]; 
} 
for (i=0; i«w size; i++) 


w[i] =0; 
for(i-0; 1<1; i++) 
{ 
xTx[i] =0; 
feature node * xi -prob-»x[i]; 
// 计算 所 有 的 i, MERE 8 的 主 对 角 元 素 
while (xi->index !=-1) 
i 
double va1 =xi->value; 
xTx[i] +=val * val; 
w[xi-»index-1] +=y[i] * alpha[2* i] * val; 
хї++; 
i 
index[i] =i; 
) 
// 这 是 坐标 下 降 法 的 核心 
while (iter <max_iter) 
{ 
// 先 对 要 优化 变量 的 顺序 进行 随机 洗 牌 
for (1=0; 1<1; i++) 
{ 
int j =i+rand()% (1-1); 
swap(index[i], index[j]); 
] 
int newton_iter =0; 
double Gmax =0; 
// 依次 优化 每 一 个 变量 
for (s=0; 5<1; s++) 
í 
i =іпаех [5]; 
schar yi -y[i]; 


double C =upper_bound[GETI (i) ]; 


»- 
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// ai 
// ai=Cr-ai 


// Ww 初始 化 为 0 


// 选择 第 s 个 变量 进行 优化 
// 类 别 标签 
// 上 界 
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double ywTx =0, xisq =xTx[i]; 
feature node * xi =prob->x[i]; 


// 计算 уа xi, 先 计算 内 积 вх. 


while (xi->index !=-1) 
{ 
ywTx +=w[xi->index-1] * xi->value; 
xitt; 
} 
ywIx *-ylil; ПАЗ Е y: 


ПОА a.b, a-Qu, Ь-у:ж х: 
double a =xisq, b =ywTx; 
int indl =2* i, ind2 -2* i*1, sign -1; 
if(0.5*a* (alpha[ind2]- alpha [indl])-*b <0) 
t 

indl-2* i+1; 

ind2 =2* i; 

sign =-1; 
} 
double alpha old -alpha[indl]; 
double z -alpha old; 
if(C-z«0.5 * C) 

z-0.1*z; 
// gp 是 一 阶 导数 ,按照 公式 计算 
double gp =a* (z-alpha old)*sign* Ь+109(2/(С-2)); 
Gmax =max (Gmax, fabs (gp) ) ; 
// 求解 子 问题 的 牛顿 法 
const double eta =0.1; // xi in the paper 
int inner_iter =0; 
while (inner_iter <=max_inner_iter) 
{ 

if (fabs (gp) <innereps) 

break; 
// арр 是 二 阶 导数 ,按照 公式 计算 
double gpp =a +C/ (C- z) /z; 


double tmpz =z -gp/gpp; // 牛顿 法 的 更 新 公式 
if(tmpz <=0) // 做 截断 处 理 

z *=eta; 
е1зе // tmpz in (0, С) 

z =tmpz; 


/ 更 新 一 阶 导 数 的 值 
gp -a* (z-alpha old)-*sign* Ь+109(2/(С-2)); 
newton iter++; 


inner_iter++; 
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if(inner iter >0) 
{ 
(Газ 4 ake 
alpha[indl] =z; 
alpha[ind2] =C- z; 
xi -prob-»x[i]; 
// 更 新 w 的 值 wwe (2-а: ) yix 


while (xi->index !=-1) 
{ 
w[xi-»index-1] *-sign* (z-alpha old) * уі * xi->value; 
xitt; 
) 
} 
} 
ібег++; 
if(iter $10 ==0) 
info("."); 
if (Gmax <eps) 
break; 


if(newton iter <=1/10) 
innereps -max(innereps min, 0.1* innereps); 
) 
info("\noptimization finished, #iter =$d\n",iter); 
if (iter >=max_iter) 
info ("\nWARNING: reaching max number of iterations\nUsing -s 0 may be faster 
(also see FAQ)\n\n"); 
// 计算 目标 函数 值 , 先 计算 正则 化 项 
double v =0; 
for(i=0; i<w_size; i++) 
V +=w[i] * w[i]; 
у *=0.5; 
// 然后 计算 样本 的 损失 函数 部 分 
for(i-0; i«1; i++) 
v +=а1рһа [2 * i] * log(alpha[2* i]) *alpha[2* i*1] * log(alpha[2* i+1]) 
-upper bound[GETI(i)] * log(upper bound[GETI (i)]); 
info("Objective value -$1fWn", v); 
delete [] xTx; 
delete [] alpha; 
delete [] y; 
delete [] index; 
} 


函数 solve 12r 1112 svc 实现 用 于 求解 L2 正则 化 L1-loss ЖП L2-loss 支持 向 量 机 对 偶 问 
题 的 坐标 下 降 法 。 代 码 如 下 : 


static void solve 12r 1112 svc( const problem * prob, double * w, double eps, 
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double Cp, double Cn, int solver type) 


int 1 =prob->1; 
int w_size =prob->n; 
int i, s, iter =0; 
double C, d, G; 
double * QD =new double [1]; 
int max_iter =1000; 
int % index =new int[1]; 
double * alpha =new double [1]; 
schar * y =new schar[1]; 
int active size =1; 
double PG; 
double PGmax old -INF; 
double PGmin old =- INF; 
double PGmax new, PGmin new; 
// 默认 求解 器 类 型 为 L2R_ L2LOSS БУС DUAL 
double diag[3] ={0.5/Cn, 0, 0.5/Cp}; 
double upper_bound[3] ={INF, 0, INF}; 
if(solver type ==L2R_L1LOSS_SVC_DUAL) 
t 
diag[0] =07 
diag[2] =0; 
upper bound[0] =Cn; 
upper bound[2] =Cp; 
) 
// 样本 标签 值 
Ёог(1=0; 1<1; i++) 
{ 
if (prob->y[i] >0) 
{ 


yli]-*1; 
} 
else 
í 

yli] =-1; 


} 
// 初始 化 alpha 值 ,在 这 里 初始 化 为 0 
for(i-0; i«1; i++) 

alpha[i] =0; 
// 初始 化 w 的 值 ,在 这 里 也 初始 化 为 0 
for(i=0; i<w_size; i++) 


w[i] =0; 


// 计算 w= > ya iX 


for(i=0; 1<1; i++) 
{ 
QD[i] =diag[GETI(i)]; 
feature node * xi -prob-»x[i]; 
while (xi-»index !=-1) 
t 
double val =хі- > value; 
QD[i] *-val* val; 
w[xi-»index-1] +=y[i] * alpha[i] * val; 
xit 
} 
index[i] =i; 
} 
// bh F Ee EEM 
while (iter <max_iter) 
{ 
PGmax new =- INF; 
PGmin_new =INF; 





A 
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for (i=0; i«active size; i++) // 先 对 样本 进行 随机 洗 牌 


{ 
int j =1+гапа()% (active size-i); 
swap (index [i], index[j]); 

) 

// 依次 优化 每 一 变量 

for (s=0; s<active_size; s++) 


( 


i =index[s]; // 对 第 s 个 变量 进行 优化 


// 计算 Gy, W x; l+ Dua; 
G-0; 
schar yi -y[i]; 
// 计算 мх, 
feature_node * xi =prob->x[i]; 


while (хі- > іпаех!=-1) 


{ 
G *-w[xi-»index-1]* (xi->value); 
xitt; 
} 
// 计算 yw x1 
G =G* yi-1; 


С =upper_bound[GETI (i) ]; 
// 加 上 Dia, 
G +=alpha[i] * diag[GETI (i) ]; 
min(G,0), a;-0 
// PG={max(G,0), а:=0 


G, 0<а:<0 
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PG =0; 
if (alpha[i] ==0) 
{ 


if (G >PGmax old) 
t 
active size--; 
swap (index[s], index[active size]); 
s--; 
continue; 
) 
else if (G <0) 


PG =G; 
} 
else if (alpha[i] ==C) 
{ 
if (G <PGmin_old) 
{ 
active size--; 
swap(index[s], index[active size]); 
s--; 
continue; 
) 
else if (G >0) 
PG =G; 
} 
else 
PG =G; 


PGmax_new =max (PGmax_new, PG); 
PGmin new =min (PGmin new, PG); 
// 更 新 
if (fabs (PG) >1.0e-12) 
{ 
(ааз 
double alpha old =а1рћа [i]; 
// a,*-min (max (a;-G/Q::,0),U) 
alpha[i] =min(max(alpha[i] -G/QD[i], 0.0), C); 
// w-W* (a ; a ; ) V: X, 
а = (а1рһа[1] -alpha old) * yi; 
Xi =prob->x[i]; 
while (xi->index !=-1) 
{ 
w[xi->index-1] +=d* xi->value; 


жї++; 


gum 线性 模型 





} 
iter++; 
if(iter $10 ==0) 
info("."); 
if(PGmax new -PGmin new <=eps) 
t 
if(active size ==1) 


break; 

else 

t 
active size -1; 
info("*"); 
PGmax old -INF; 
PGmin old =- INF; 
continue; 

) 


} 
PGmax_old =PGmax_new; 
PGmin_old =PGmin_new; 
if (PGmax old <=0) 
PGmax_old =INF; 
if (PGmin_old >=0) 
PGmin old =- INF; 
} 
info ("\noptimization finished, $iter =%d\n",iter); 
if (iter >=max_iter) 
info("\nWARNING: reaching max number of iterations\nUsing -s 2 may be faster 
(also see FAQ) \n\n"); 
// 计算 目标 函数 值 ,首先 计算 正则 化 部 分 
double v =0; 
int nSV =0; 
for(i=0; i<w_size; i++) 
v +=w[i] * w[i]; 
// 然后 计算 损失 函数 部 分 
for (i=0; i«1; i++) 
{ 
v +=а1рһа [1] * (alpha[i] * diag[GETI (i)] -2); 
if (alpha[i] >0) 
++nSV; 
} 
info ("Objective value =%1f\n",v/2); 
info("nSV =%dNVn",nSV); 
delete [] QD; 
delete [] alpha; 
delete [] y; 
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delete [] index; 


) 
11.5 softmax 回归 


logistic 回归 只 能 用 于 二 分 类 问题 ,将 它 进 行 推 广 可 以 得 到 处 理 多 类 分 类 问题 的 
softmax 回归 。 给 定 /个 训练 样本 (xi;,yi) ,其 中 x; 为 n 维特 征 向 量 ,yi 为 类 别 标签 , 取 值 为 
1~k 的 整数 。softmax 回归 按照 下 面 的 公式 估计 一 个 样本 属于 每 一 类 的 概率 ， 


т 
a 











ee 
模型 的 输出 为 一 个 k 维 的 概率 向 量 , 其 元 素 之 和 为 1 ,每 一 个 分 量 为 样本 属于 该 类 的 概 
率 。 使 用 指数 函数 进行 变换 的 原因 是 指数 函数 值 都 大 于 0 ,概率 值 必须 是 非 负 的 。 分 类 时 
将 样本 判定 为 概率 最 大 的 那个 类 。 要 估计 的 参数 为 
0= [0 0, : 0] 
其 中 ,每 个 b; 都 是 一 个 列 向 量 ,0 是 一 个 n Xk 的 矩阵 。 如 果 将 上 面 预测 出 的 概率 向 量 记 为 
у", 











DES 
样本 真实 标签 向 量 用 one-hot 编码 , 即 如 果 样 本 是 第 i 类 . 则 向 量 的 第 i 个 分 量 为 1, 其 
他 的 为 0, 将 这 个 标签 向 量 记 为 y。 仿 照 logistic 回归 的 做 法 ,样本 属于 每 个 类 的 概率 可 以 统 


一 写成 
k 
П (уг n 
i=1 


显然 这 个 结论 是 成 立 的 。 因 为 只 有 一 个 y 为 1, 其 他 的 都 为 0, 一 旦 y 的 取 值 确定 ,如 
样本 为 第 j 类 样本 , 则 上 式 的 值 为 y; 。 给 定 一 批 样本 ,它们 的 似 然 函 数 为 


fe gn P) 


hoch M exp(0rxi) 


t=1 


其 中 ,y; 为 第 i 个 训练 样本 标签 向 量 的 第 j 个 分 量 。 对 上 式 取 对 数 , 得 到 对 数 似 然 函数 为 
e gut 

3 УУ exp(07xi) 

让 对 数 似 然 函数 取 极 大 值 等 价 于 让 下 面 的 损失 函数 取 极 小 值 : 


1 $ 
L(0)=— У) У) 


ysln 





exp(87x.) | 
k 
X exp(0Tx,) 

t=1 


А 
=a 
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上 式 可 以 看 作 是 logistic PAH Ac РЁ 32% ñ9 EJ, PR ЗС ЖОЙ FE PR ЖК. n] PJ HE BJ x 390A РА 
BE ARIF ALA TUR B9: BSR AAR IET T A. ЖОЙПУ ЫЛ ЖЕЙ, 15. 7.7 节 。 
对 单个 样本 的 损失 函数 可 以 写成 


k IT 
ону E ехр(бгх) 
aay M exp(@tx) 


t=1 








= (x (8x — (ехото) 
如 果 样 本 属于 第 i 类, 则 sm 1 JE HON 0, Es RTL A 
L(x,y,0 ) 一 一 (6x — In( S expte) )) 
TH YB ЖОН, 的 梯度 值 。 如 果 i= p Mi 


т 
y d : EAPO) 
p» ехр(07х) 


1=1 














ехр(7х) ] 
k 

> exp(07x) 

t=1 

否则 


Vel 


> 





0 








т : ү; 
-exp(0sx) ] xp(Opx) " 
У) exp(brx) >)exp(Cbrx) 

t=1 t=1 


fS Bhs E B Z Jes. TVA [н] BE F БЕ ЕЗЕК. ЛИШ. X HB TEL WS f EE ë ЖОЙ 2K PRI 
数 的 含义 。 如 果 一 个 样本 是 第 p 类 的 ,对 单个 样本 的 损失 函数 可 以 简化 为 


j=1 





exp(07x ) I. exp(87x) 
E а = 


ә M ехр(Ө7к) 


t=1 1=1 


如 果 softmax 回归 预测 出 来 的 属于 第 p 类 的 值 为 1, 即 与 真实 标签 值 完全 吻合 ,此 时 损 
失 函 数 有 极 小 值 0。 反 之 ,如 果 预 测 出 来 属于 第 p 类 的 值 为 0, 此 时 损失 函数 值 为 正 无 穷 。 


улп 





11.6 应 用 


logistic 回归 在 模式 识别 和 数据 挖掘 领域 有 成 功 的 应 用 ,典型 应 用 包括 广告 点 击 预 估 
СТЕ"?! ,疾病 诊断 3] 。 线 性 支持 向 量 机 因为 计算 速度 快 .被 用 于 行人 检测 5 ,文本 分 类 等 
问题 。 

文献 [12] 提 出 了 一 种 用 logistic 回归 预测 广告 点 击 率 的 方法 ,这 种 方法 和 它 的 改进 方 
案 被 很 多 互联 网 公司 的 广告 系统 使 用 。 广 告 点 击 率 预 估 的 目标 是 给 定 一 个 用 户 搜 索 以 及 一 
个 广告 ,预测 这 个 广告 被 点 击 的 概率 。 在 这 个 方法 中 ,特征 向 量 是 人 工 设计 的 广告 特征 , 例 
如 ,文档 的 标题 中 词 的 个 数 ,是 否 包含 某 一 特定 词 等 。 

下 面 介 绍 支持 向 量 机 在 行人 检测 中 的 应 用 。 使 用 梯度 方向 直方 图 (Histogram of 
Oriented Gradient. HOG) 特 征 的 线性 支持 向 量 机 被 成 功 地 用 于 行人 检测 问题 ,由 Dalal 等 
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人 在 2005 年 提出 529 。 行 人 检测 的 目标 是 找 出 图 像 中 所 有 行人 的 位 置 和 大 小 。 这 是 比 人 脸 
检测 更 具有 挑战 性 的 问题 ,除了 要 处 理 视角 、 光 照 , 遮 挡 等 问题 之 外 ,人 体 比 人 脸 有 更 复杂 的 
形状 ,可 能 有 大 幅度 的 变形 ,雨伞 、 帽 子 等 干扰 物 都 为 行人 检测 问题 带 来 困难 。 
HOG 特征 用 于 描述 图 像 中 边缘 的 朝向 和 强度 ,根据 它 来 构造 直方 图 作为 特征 向 量 。 
特征 的 计算 主要 分 如 下 几 步 : 
(1) 图 像 归 一 化 ,可 以 采用 伽 马 校正 ,这 样 做 的 目的 是 为 了 减 小 光照 引起 的 偏差 。 
(2) 计算 图 像 在 水 平和 垂直 方向 的 导数 ,这 通过 水 平 或 者 垂直 方向 相 邻 像素 相 减 实现 。 
(3) 计算 梯度 的 模 和 朝向 ,计算 公式 分 别 为 
М = JO + (Ау) 
а = arctanC Ay/ Ax) 
CD 将 图 像 划 分 成 单元 ,计算 每 个 单元 的 梯度 方向 直方 图 ,即将 360° 划 分 成 n 个 等 分 区 
间 , 然 后 计算 梯度 方向 在 每 个 区 间 内 的 像素 数 ,为 了 平滑 ,还 采用 了 线性 插值 。 
(5) 根据 相 邻 多 个 单元 的 直方 图 构造 直方 图 特征 。 
(6) 对 直方 图 进行 归 一 化 ,得 到 最 终 的 特征 向 量 。 
然后 将 特征 送 入 线性 支持 向 量 机 中 进行 训练 和 预测 。 选 用 线性 支持 向 量 机 的 原因 是 计 
算 量 更 小 ,只 需要 执行 一 次 向 量 内 积 。 


参考 文献 


David W Hosmer, Stanley Lemeshow. Applied logistic regression. Technometrics, 2000. 


Chih-Jen Lin. Ruby C Weng. S Sathiya Keerthi. Trust Region Newton Method for Large-Scale 





Logistic Regrression. Journal of Machine Learning Research 2008.9; 627-650. 

3] Kwangmoo Koh. Seung-Jean Kim. Stephen Boyd. An interior-point method for large scale 11- 
regularized logistic regression. Journal of Machine Learning Research, 2007.8;1519-1555. 

4] Thomas P Minka. A comparison of numerical optimizers for logistic regression. 2003. 

5] SShalev-Shwartz. Y Singer. N Srebro. Pegasos; primal estimated sub-gradient solver for SVM. In 
ICML. 2007. 

6] Kai-Wei Chang, Cho-Jui Hsieh, Chih-Jen Lin. Coordinate descent method for large-scale L2-loss 
linear SVM. Journal of Machine Learning Research.2008. 9:1369-1398. 

7] ChiaHua Ho. Chih-Jen Lin. Large-scale linear support vector regression. Journal of Machine 
Learning Research. 2012. 13:3323-3348. 

8] Cho-Jui Hsieh, Kai-Wei Chang. Chih-Jen Lin. et al. A dual coordinate descent method for large-scale 
linear SVM. In Proceedings of the Twenty Fifth International Conference оп Machine Learning 
(ICML) , 2008. 

9] Wei-Chun Kao, Kai-Min Chung, Chia-Liang Sun. et al. Decomposition methods for linear support 
vector machines. Neural Computation. 2004. 16(8) 1689-1704. 





[10] S Sathiya Keerthi, Dennis DeCoste. A modified finite Newton method for fast solution of large scale 
linear SVMs. Journal of Machine Learning Research, 2005. 6:341-361. 
[11] Rong-En Fan, Kai-Wei Chang. Cho-Jui Hsieh, et al. LIBLINEAR: A Library for Large Linear 








[12] 


[13] 
гм] 


Classification. Journal of Machine Learning Research 2008 9; 1871-1874. 
Matthew Richardson, Ewa Dominowska. Robert J Ragno. Predicting clicks: estimating the click- 


through rate for new ads. international world wide web conferences, 2007. 


Daryl Pregibon. Logistic Regression Diagnostics. Annals of Statistics, 1981. 
Navneet Dalal, Bill Triggs. Histograms of oriented gradients for human detection. Computer Vision 


and Pattern Recognition, 2005. 


第 12 章 
随机 森林 


随机 森林 是 一 种 集成 学 习 算 法 , 它 由 多 棵 决策 树 组 成 。 用 多 棵 决策 树 联 合 预测 可 以 提 
高 模型 的 精度 ,这 些 决 策 树 用 对 训练 样本 集 随 机 抽样 构造 出 的 样本 集训 练 得 到 。 由 于 训练 
样本 集 由 随机 抽样 构造 ,因此 称 为 随机 森林 。 随 机 森林 不 仅 对 训练 样本 进行 抽样 ,还 对 特征 
向 量 的 分 量 随机 抽样 ,在 训练 决策 树 时 ,每 次 寻找 最 佳 分 裂 时 只 使 用 一 部 分 抽样 的 特征 分 量 
作为 候选 特征 进行 分 裂 。 


12.1 集成 学 习 


集成 学 习 (Ensemble Learning) 是 机 器 学 习 中 的 一 种 思想 , 它 通 过 多 个 模型 的 组 合 形成 
一 个 精度 更 高 的 模型 ,参与 组 合 的 模型 称 为 弱 学 习 器 (Weak Learner)。 在 预测 时 使 用 这 些 
弱 学 习 器 模型 联合 进行 预测 ;训练 时 需要 用 训练 样本 集 依 次 训练 出 这 些 弱 学 习 器 。 本 章 介 
绍 的 Bagging 框架 是 集成 学 习 的 典型 例子 ,在 第 13 章 中 介绍 的 AdaBoost 算法 是 集成 学 习 
К —^ BUT 


12.1.1 随机 抽样 


Bootstrap 抽样 是 一 种 数据 抽样 方法 。 抽 样 是 指 从 一 个 样本 数据 集中 随机 选取 一 些 样 
本 ,形成 新 的 数据 集 。 这 里 有 两 种 选择 : 有 放 回 抽样 和 无 放 回 抽样 。 对 于 前 者 ,一 个 样本 被 
抽 中 之 后 会 放 回去 ,在 下 次 抽样 时 还 有 机 会 被 抽 中 。 对 于 后 者 ,一 个 样本 被 抽 中 之 后 就 从 抽 
样 集中 去 除 , 下 次 不 会 再 参与 抽样 ,因此 ,一 个 样本 最 多 只 会 被 抽 中 一 次 。 在 这 里 Bootstrap 
使 用 的 是 有 放 回 抽样 。 

这 种 抽样 的 做 法 是 在 n 个 样本 的 集合 中 有 放 回 地 抽取 个 样本 形成 一 个 数据 集 。 在 
这 个 新 的 数据 集中 原始 样本 集中 的 一 个 样本 可 能 会 出 现 多 次 ,也 可 能 不 出 现 。 假 设 样本 集 
中 有 nn 个 样本 ,每 次 抽 中 其 中 任何 一 个 样本 的 概率 都 为 1/n., 一 个 样本 在 每 次 抽样 中 没 被 抽 
中 的 概率 为 1 一 1/n。 由 于 是 有 放 回 的 抽样 ,每 两 次 抽样 之 间 是 独立 的 ,因此 ,对 连续 n 次 抽 
样 ,一 个 样本 没 被 抽 中 的 概率 为 

(1—1/з)" 

可 以 证 明 n 趋向 于 无 穷 大 时 这 个 值 的 极限 是 1/e, 约 等 于 0. 368, 其 中 e 是 自然 对 数 的 

底数 , 即 如 下 结论 成 立 : 
lim,-44, (1 — 1/n)* = 1/e 

如 果 样 本 量 很 大 ,在 整个 抽样 过 程 中 每 个 样本 有 0. 368 的 概率 不 被 抽 中 。 由 于 样本 集 
中 各 个 样本 是 相互 独立 的 ,在 整个 抽样 中 所 有 样本 大 约 有 36. 8% 没 有 被 抽 中 。 这 部 分 样本 
称 为 包 外 (Out Of Bag,OOB) 数 据 。 
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12.1.2 Bagging 算法 


在 日 常生 活 中 人 们 会 遇 到 这 样 的 情况 : 对 一 个 决策 问题 ,如 果 一 个 人 拿 不 定 主意 ,可 以 
组 织 多 个 人 来 集体 决策 。 如 果 要 判断 一 个 病人 是 否 患 有 某 种 疑难 疾病 ,可 以 组 织 一 批 医生 
来 会 诊 。 会 诊 的 做 法 是 让 每 个 医生 做 一 个 判断 ,然后 收集 他 们 的 判断 结果 进行 投票 协商 ,得 
票 最 多 的 那个 判断 结果 作为 最 终 的 结果 。 这 种 思想 在 机 器 学 习 领 域 的 应 用 就 是 集成 学 习 
算法 。 

在 Bootstrap 抽样 的 基础 上 可 以 构造 出 Bagging(Bootstrap Aggregating) 算 法 。 这 种 方 
法 对 训练 样本 集 进行 多 次 Bootstrap 抽样 ,用 每 次 抽样 形成 的 数据 集训 练 一 个 弱 学 习 器 模 
型 ,得 到 多 个 独立 的 弱 学 习 器 ,最 后 用 它们 的 组 合 进行 预测 。 训 练 流程 如 下 。 


循环 ,对 1=1,2,++,Т 
对 训练 样本 集 进 行 Bootstrap 抽样 ,得 到 抽样 后 的 训练 样本 集 
用 抽样 得 到 的 样本 集训 练 一 个 模型 л, (х) 

结束 循环 

输出 模型 组 合 hy GO oe hee) 


其 中 ,人 为 弱 学 习 器 的 数量 。 上 面 的 算法 是 一 个 抽象 的 框架 ,没有 指明 每 个 弱 学 习 器 模型 的 
具体 形式 。 如 果 弱 学 习 器 是 决策 树 ,这 种 方法 就 是 随机 森林 。 


12.2 随机 森林 概述 


随机 森林 由 Breiman APERTA , 它 由 多 棵 决策 树 组 成 。 在 数据 结构 中 森林 由 多 棵 
数组 成 ,这 里 沿用 了 此 概念 。 对 于 分 类 问题 ,一 个 测试 样本 会 送 到 每 一 棵 决策 树 中 进行 预 
测 ,然后 投票 ,得 票 最 多 的 类 为 最 终 分 类 结果 。 对 于 回归 问题 随机 森林 的 预测 输出 是 所 有 决 
策 树 输出 的 均值 。 

随机 森林 使 用 多 棵 决策 树 联 合 进行 预测 可 以 降低 模型 的 方差 ,下 面 给 出 一 种 不 太 严 格 
的 解释 。 对 于 个 独立 同 分 布 的 随机 变量 zx; .假设 它们 的 方差 为 @, 则 它们 均值 的 方差 为 


p{+ >=)= o/n 
即将 多 个 随机 变量 相 加 取 均 值 方差 会 减 小 。 如 果 将 每 棵 决策 树 的 输出 值 看 作 随 机 变量 ,多 
棵 树 的 输出 值 之 和 的 方差 会 比 单 棵 树 小 ,因此 可 以 降低 模型 的 方差 。 


12.3 训练 算法 


随机 森林 在 训练 时 依次 训练 每 一 棵 决策 树 ,每 棵 树 的 训练 样本 都 是 从 原始 训练 集中 进 
行 随机 抽样 得 到 。 在 训练 决策 树 的 每 个 节点 时 所 用 的 特征 也 是 随机 抽样 得 到 的 , 即 从 特征 
向 量 中 随机 抽出 部 分 特征 参与 训练 。 随 机 森林 对 训练 样本 和 特征 向 量 的 分 量 都 进行 了 随机 
在 这 里 决策 树 的 训练 算法 与 第 5 章 中 介绍 的 相同 ,唯一 不 同 的 是 训练 决策 树 的 每 个 节 
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点 时 只 使 用 随机 抽取 的 部 分 特征 分 量 。 

样本 的 随机 抽样 可 以 用 均匀 分 布 的 随机 数 构造 ,如 果 有 /个 训练 样本 ,只 需要 将 随机 数 
变换 到 区 间 [0,/ 一 1] 即 可 。 每 次 抽取 样本 时 生成 一 个 该 区 间 内 的 随机 数 , 然 后 选择 编号 为 
该 随机 数 的 样本 。 对 特征 分 量 的 采样 是 无 放 回 抽样 ,可 以 用 随机 洗 牌 算法 实现 。 

这 里 需要 确定 决策 树 的 数量 以 及 每 次 分 裂 时 选用 的 特征 数量 。 第 一 个 问题 根据 训练 集 
的 规模 和 问题 的 特点 而 定 , 后 面 在 分 析 误 差 时 会 给 出 一 种 解决 方案 。 第 二 个 问题 并 没有 一 
个 精确 的 理论 答案 ,可 以 通过 实验 确定 。 

正 是 因为 有 了 这 些 随机 性 ,随机 森林 可 以 在 一 定 程度 上 消除 过 拟 合 。 对 样本 进行 采样 
是 必需 的 ,如 果 不 进行 采样 ,每 次 都 用 完整 的 训练 样本 集训 练 出 来 的 多 棵 树 是 相同 的 。 

训练 每 一 棵 决策 树 时 有 部 分 样本 未 参与 训练 。 可 以 在 训练 时 利用 这 些 没有 被 选中 的 样 
本 做 测试 ,统计 它们 的 预测 误差 ,这 称 为 包 外 误差 。 这 种 做 法 与 交叉 验证 类 似 。 二 者 都 是 把 
样本 集 切 分 成 多 份 ,轮流 用 其 中 的 一 部 分 样本 进行 训练 ,用 剩 下 的 样本 进行 测试 。 不 同 的 
是 ,交叉 验证 把 样本 均匀 地 切 分 成 分 ,在 训练 集中 同一 个 样本 不 会 出 现 多 次 ;后 者 在 每 次 
Bootstrap 抽样 时 同一 个 样本 可 能 会 被 选中 多 次 。 

利用 包 外 样本 作为 测试 集 得 到 的 包 外 误差 与 交叉 验证 得 到 的 误差 基本 一 致 ,因此 ,可 以 
用 来 代替 交叉 验证 的 结果 。 因 此 ,可 以 使 用 包 外 误差 作为 泛 化 误差 的 估计 。 下 面 给 出 包 外 
误差 的 计算 方法 。 对 于 分 类 问题 , 包 外 误差 定义 为 被 错 分 的 包 外 样本 数 与 总 包 外 样本 数 的 
比值 。 对 于 回归 问题 ,所 有 包 外 样本 的 回归 误差 和 除 以 包 外 样本 数 。 

实验 结果 证 明 ,增加 决策 树 的 数量 包 外 误差 与 测试 误差 会 下 降 。 这 个 结论 为 我 们 提供 
了 确定 决策 树 数 量 的 一 种 思路 ,可 以 通过 观察 误差 来 决定 何 时 终止 训练 , 当 训 练 误差 稳定 之 
后 停止 训练 。 


12.4 变量 的 重要 性 


随机 森林 可 以 在 训练 过 程 中 输出 变量 的 重要 性 , 即 哪个 特征 对 分 类 更 有 用 。 实 现 的 方 
法 有 两 种 : Gini 法 和 置换 法 ,在 这 里 我 们 介绍 置换 法 。 它 的 原理 是 ,如 果 某 个 特征 很 重要 ， 
那么 改变 样本 的 该 特征 值 ,该 样本 的 预测 结果 就 容易 出 现 错误 。 也 就 是 说 ,这 个 特征 值 对 分 
类 结果 很 敏感 。 反 之 ,如 果 一 个 特征 对 分 类 不 重要 ,随便 改变 它 对 分 类 结果 没 多 大 影响 。 

对 于 分 类 问题 ,训练 某 决策 树 时 在 包 外 样本 集中 随机 挑选 两 个 样本 ,如 果 要 计算 某 一 变 
量 的 重要 性 , 则 置换 这 两 个 样本 的 这 个 特征 值 。 假 设置 换 前 样本 的 预测 值 为 y* ,真实 标签 
值 为 ,置换 之 后 的 预测 值 为 y; 。 变 量 重要 性 的 计算 公式 为 





Nymye — fl 
m | oob| 
其 中 ,|oob| 为 包 外 样本 数 ;n,-,. 为 包 外 集合 中 在 进行 特征 置换 之 前 被 正确 分 类 的 样本 数 ， 
nyy 为 包 外 集合 中 特征 置换 之 后 被 正确 分 类 的 样本 数 。 二 者 的 差 反 映 的 是 置换 前 后 的 分 
类 准确 率 变 化 值 。 
对 于 回归 问题 ,变量 重要 性 的 计算 公式 为 


2 exp ( (> — )) p E ( Е zy) 


| oob| 


у= Ул 
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其 中 ,m 为 所 有 训练 样本 中 标签 值 绝对 值 的 最 大 值 。 这 个 定义 和 分 类 问题 类 似 ,都 是 衡量 
置换 前 和 置换 后 的 准确 率 的 差 值 。 除 以 这 个 最 大 值 是 为 了 数值 计算 的 稳定 。 

上 面 定 义 的 是 单 棵 决策 树 的 变量 重要 性 ,计算 出 每 棵 树 的 变量 重要 性 之 后 ,对 该 值 取 平 
均 就 得 到 随机 森林 的 变量 重要 性 。 计 算出 每 个 变量 的 重要 性 之 后 ,将 该 值 归 一 化 得 到 最 终 
的 重要 性 值 。 


12.5 实验 程序 


下 面 通过 实验 程序 介绍 随机 森林 的 使 用 , 它 使 用 OpenCV 的 随机 森林 类 。 同 样 对 3 个 
类 的 样本 进行 分 类 。 每 类 有 50 个 训练 样本 ,同样 使 用 正 态 分 布 随机 数 生成 。 在 这 里 ,设置 
随机 森林 决策 树 的 数量 为 5。 

程序 源 代码 如 下 : 


T 





int main(int argc, char * * argv) 
{ 
const int kWidth =512, kHeight =512; // 显示 分 类 结果 的 图 像 的 高 度 和 宽度 
Vec3b red(0, 0, 255), green(0, 255, 0), blue (255, 0, 0); // 显示 分 类 结果 的 颜色 
Mat image =Mat::zeros(kHeight, kWidth, CV_8UC3); 
// 为 训练 样本 标签 赋值 ,每 类 样本 50 个 
int labels[150]; 
for (int i=0; i<50; i++) 
labels[i] =1; 
for (int i =50; i <100; i++) 
labels[i] =2; 
for (int і =100; i <150; i++) 
labels[i] =3; 
Mat trainResponse (150, 1, CV 325С1, labels); 
// 为 训练 样本 特征 向 量 数组 赋值 
float trainDataArray[150][2]; 
RNG rng; 
for (int i =0; i <50; i++) 
t 
trainDataArray[i][0] =250 +static_cast<float> (rng.gaussian(30)); 
trainDataArray[i][1] =250 *static cast«float» (rng.gaussian(30)); 
) 
for (int i =50; i <100; i++) 
{ 
trainDataArray[i] [0] =150 +static_cast<float> (rng.gaussian(30)); 
trainDataArray[i] [1] =150 +static cast<float> (rng.gaussian(30)); 
} 
for (int i =100; i«150; i++) 
{ 
trainDataArray[i] [0] =320 +static_cast<float> (rng.gaussian (30) ); 








trainDataArray[i] [1] =150 +static cast«float» (rng.gaussian (30)); 
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} 
Mat trainData (150, 2, CV З2ЕС1, trainDataArray); 
// 随机 森林 的 训练 参数 ,在 源 代码 分 析 中 会 详细 讲解 。 在 这 里 ,决策 树 的 数量 为 5 
CvRTParams params =CvRTParams (5, 2, 0, false, 2, NULL, true, 0, 5, 0, 
CV_TERMCRIT ITER); 
СуКТгеез rtrees; 
// 训练 随机 森林 
rtrees.train(trainData, CV_ROW_SAMPLE, trainResponse, cv::Mat(), 
cv::Mat(), cv::Mat(), cv::Mat(), params); 
// 对 图 像 内 所 有 点 进行 预测 ,并 显示 不 同 的 颜色 
for (int i =0; i <image.rows; i++) 
{ 
for (int j =0; j <image.cols; j++) 
{ 
Mat sampleMat = (Mat «float» (1, 2) <<], i); 
float response -rtrees.predict (sampleMat); 
if (response --1) 
image.at<Vec3b> (i, j) =red; 
else if (response --2) 
image.at<Vec3b> (i, j) =green; 
else 
image.at<Vec3b> (i, j) =blue; 


) 
// 显示 3 类 训练 样本 
for (int i =0; i<trainData.rows; i++) 
{ 
const float * v =trainData.ptr<float> (i); 
Point pt =Point((int)v[0], (int)v[1]); 
if (labels[i] ==1) 
circle(image, pt, 5, Scalar::all(0), -1, 8); 
else if (labels[i] ==2) 
circle(image, pt, 5, Scalar::all(128), -1, 8); 
else 
circle (image, pt, 5, Scalar::all(255), -1, 8); 


imshow ("random forest classifier demo", image); 
waitKey (0); 
return 0; 


) 

程序 运行 结果 如 图 12.1 所 示 。 

图 12.1 中 3 个 类 的 分 类 界线 为 分 段 直线 ,因为 决策 树 是 分 段 线性 的 ,随机 森林 是 它们 
的 投票 结果 ,因此 还 是 分 段 线性 的 。 





# 238 mie (2711 


-._ «ЖН 





12.1 随机 森林 的 分 类 结果 


12.6 源 代码 分 析 


下 面 分 析 OpenCV 中 随机 森林 的 源 代码 。 它 实现 了 完整 的 随机 森林 功能 ,包括 训练 算 
法 、 预 测算 法 ,并 且 支 持 计算 包 外 误差 ,输出 变量 重要 性 、 计 算 变 量 相似 度 ,支持 分 类 和 回归 
问题 。 


12.6.1 主要 数据 结构 
CvForestTree 类 是 随机 森林 的 决策 树 ,继承 自决 策 树 CvDTree 类 。 定 义 如 下 : 


class CV_EXPORTS CvForestTree: public CvDTree 
{ 
public: 
CvForestTree(); 
virtual ~CvForestTree (); 
virtual bool train( CvDTreeTrainData * train data, const CvMat* — subsample idx, 
CvRTrees* forest ); 
virtual int get var count() const {return data ? data-»var count : 0;} 
virtual void read( CvFileStorage* fs, CvFileNode * node, CvRTrees* forest, 
CvDTreeTrainData* data); 
// 下 面 这 些 函 数 是 内 部 调用 的 
virtual bool train( const CvMat* Crain data, int tflag, 
const CvMat * responses, const CvMat* var idx=0, 
const CvMat * sample idx-0, const CvMat* var type-0, 
const CvMat * missing таѕк= 0, 
CvDTreeParams params- CvDTreeParams() ) 7 
virtual bool train( CvDTreeTrainData * train data, const CvMat* _subsample idx ) 7 
virtual void read( CvFileStorage* fs, CvFileNode* node ); 


virtual void read ( CvFileStorage * fs, CvFileNode * node, CvDTreeTrainData * 
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data ); 


protected: 


H 


// 辅助 结构 ,用 于 寻找 最 佳 分 裂 时 的 并 行 计 算 

friend struct cv::ForestTreeBestSplitFinder; 

// 寻找 最 佳 分 裂 , 重 写 了 基 类 的 函数 

virtual CvDTreeSplit * find best split( CvDTreeNode * п); 
// 指向 随机 森林 的 指针 


CvRTrees* forest; 


这 里 重 写 了 find_best_split 函数 ,因为 随机 森林 的 决策 树 和 标准 决策 树 的 训练 算法 不 
同 ,前 者 在 训练 时 每 次 分 裂 都 要 对 特征 向 量 的 分 量 进行 随机 采样 。 
CvRTrees 是 随机 森林 类 ,继承 自 CvStatModel, 定 义 如 下 : 


class CV_EXPORTS CvRTrees: public CvStatModel 


{ 


public: 


CvRTrees (); 
virtual ~CvRTrees () 7 
virtual bool train( const CvMat* train data, int tflag, 

const CvMat * responses, const CvMat* var idx-0, 

const CvMat * sample idx-0, const CvMat* var type-0, 

const CvMat * missing mask-0, 

CvRTParams params-CvRTParams() ); 
virtual bool train( CvMLData * data, CvRTParams params- CvRTParams() ); 
virtual float predict( const CvMat * sample, const CvMat * missing =0 ) const; 
virtual float predict prob( const CvMat * sample, const CvMat* missing =0 ) const; 


#ifndef SWIG 


virtual bool train( const cv::Mat& train data, int tflag, 
const cv::Mat& responses, const cv::Mat& var idx-cv::Mat(), 


const cv::Mat& sample idx-cv::Mat(), const cv::Mat& var type-cv::Mat(), 





const cv::Mat& missing mask-cv::Mat(), 
CvRTParams params-CvRTParams() ); 
virtual float predict ( const cv::Mat& sample, const cv::Mat& missing =cv::Mat() ) 
const; 
virtual float predict prob( const cv::Mat& sample, const cv::Mat& missing =cv:: 
Mat() ) 


const; 


#endif 


virtual void clear(); 
virtual const CvMat * get var importance (); 
virtual float get proximity( const CvMat* samplel, const CvMat * sample2, 
const CvMat * missingl =0, const CvMat * missing2 =0 ) const; 
virtual float calc_error(CvMLData* data, int type , std::vector<float> * resp = 
0); 


virtual float get_train_error(); 
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virtual void read( CvFileStorage* fs, CvFileNode* node ); 
virtual void write ( CvFileStorage * fs, const char * name ) const; 
CvMat * get_active var mask(); 

CvRNG* get rng(); 

int get tree count() const; 


CvForestTree* get tree(int i) const; 


protected: 
virtual bool grow forest( const CvTermCriteria term crit ); 
CvForestTree * * trees; // 随机 森林 所 包含 的 决策 树 
CvDTreeTrainData* data; // 树 的 训练 样本 数据 ,所 有 决策 树 共 用 
int ntrees; // 决策 树 的 数量 
int nclasses; // 类 型 数 , 仅 用 于 分 类 问题 
double oob_error; // oob 误 差 
CvMat* var importance; // 变量 重要 性 数组 
int nsamples; // 训练 样本 数 
CVRNG rng; // 随机 数 生 成 ,对 样本 、 特 征 进行 随机 采样 时 使 用 
CvMat * active var mask; // 特征 分 量 活跃 性 掩 码 ,用 于 特征 的 随机 采样 


н 


12.6.2 ”训练 算法 


下 面 介绍 决 策 树 的 训练 算法 。 训 练 过 程 中 每 次 分 裂 只 对 抽样 选中 的 部 分 特征 进行 计 
算 ,这 由 重 写 的 find_best_split 函数 实现 。 

ForestTreeBestSplitFinder 继承 自 DTreeBestSplitFinder, 用 于 随机 森林 树 的 最 佳 分 裂 
搜索 ,目的 是 为 了 使 用 并 行 计算 进行 加 速 。 下 面 的 函数 负责 搜索 指定 编号 范围 内 的 变量 最 
佳 分 裂 , 用 于 多 线程 并 行 处 理 时 调用 ,range 指明 了 搜索 范围 。 代 码 如 下 : 


void ForestTreeBestSplitFinder::operator() (const BlockedRange& range) 
{ 
int vi, vil =range.begin(), vi2 =range.end(); // 搜索 的 起 始 范 围 
int n-node-»sample count; // 采样 数量 
CvDTreeTrainData* data =tree->get_data(); // 训练 样本 数据 
AutoBuffer<uchar>inn_buf(2*n* (sizeof (int) +sizeof (float))); 
CvForestTree* ftree = (CvForestTree * )tree; 
// 活跃 变量 掩 码 数 组 ,表示 哪些 特征 分 量 被 随机 选中 用 来 训练 
const CvMat * active var mask =ftree->forest->get active var mask(); 
for( vi =vil; vi <vi2; vi++) // vi 是 特征 分 量 的 下 标 
{ 
CvDTreeSplit * res; 
int ci -data-»var type-»data.i[vi]; 
// 如 果 特 征 分 量 不 活跃 则 跳 过 该 特征 , 即 没有 被 抽样 选中 
if ( node->num_valid[vi] <=1 
|| (active var mask && !active var mask->data.ptr[vi]) ) 
continue; 


if(data-»is classifier ) // 对 于 分 类 问题 
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// VHS E De HEA AY SR EA LER Ж 

if(ci»-0) 
res = ftree- »find split cat class( node, vi, bestSplit- > quality, 
split, (uchar * )inn buf ); 

else 
res —ftree- > find split ord class ( node, vi, bestSplit- > quality, 
split, (uchar* )inn buf ); 


else // 对 于 回归 问题 


if(ci>=0) 
res =ftree->find_split_cat_reg( node, vi, bestSplit- > quality, 
split, (uchar* )inn buf ); 
else 
res -ftree- > find split ord reg( node, vi, bestSplit- > quality, 
split, (uchar* )inn buf ); 
) 
// 如 果 寻 找到 的 最 佳 分 裂 比 当前 最 好 的 最 佳 分 裂 还 要 好 ,更 新 最 佳 分 裂 
if( res && bestSplit->quality «split-»quality ) 
memcpy( (CvDTreeSplit * )bestSplit, (CvDTreeSplit * )split, splitSize ); 


) 


与 标准 的 决策 树 相 比 ,这 里 的 不 同 在 于 寻找 最 佳 分 裂 时 跳 过 了 那些 没有 被 抽样 选中 的 
特征 ,只 对 选中 的 特征 进行 计算 。 

函数 find. best split 为 决策 树 的 一 个 节点 寻找 最 佳 分 裂 。 首 先 对 特征 分 量 进行 随机 洗 
牌 , 选 出 部 分 特征 作为 分 裂 的 候选 特征 ,这 相当 于 特征 分 量 的 采样 ;然后 寻找 最 佳 分 裂 。 实 
现代 人 码 如 下 : 


CvDTreeSplit * CvForestTree::find best split( CvDTreeNode * node ) 
{ 
CvMat * active var mask =0; 
if( forest ) 
{ 
int var_count; 
CvRNG* rng =forest->get_rng(); 
// 获取 变量 的 活跃 性 掩 码 
active var mask —-forest-»get active var mask(); 
var count -active var mask-»cols; 
CV Assert( var count --data-»var count ); 
// 以 下 循环 对 参与 分 裂 的 特征 分 量 进行 随机 洗 牌 排 序 
for( int vi =0; vi <var count; vi++) 


í 
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// 随机 交换 两 个 掩 码 值 

uchar temp; 

int il =cvRandInt (rng) $var count; 

int i2 =cvRandInt (rng) $var count; 

CV SWAP(active var mask-»data.ptr[il], 


active var mask-»data.ptr[i2], temp ); 


) 
// 并 行 计算 ,寻找 最 佳 分 裂 
cv::ForestTreeBestSplitFinder finder( this, node ); 
cv::parallel reduce (cv: :BlockedRange (0, data-~>var_count), finder); 
CvDTreeSplit * bestSplit -data-»new split cat( 0, -1.0f ); 
memcpy( bestSplit, finder.bestSplit, finder.splitSize ) 7 
return bestSplit; 
) 


函数 train 是 随机 森林 的 训练 函数 。 代 码 如 下 : 


bool CvRTrees::train( const CvMat* train data, int tflag, const CvMat* _гезропзез, 
const CvMat * var idx, const CvMat* sample idx, const CvMat* var type, 


const CvMat* missing mask, CvRTParams params ) 


clear(); // 清除 上 次 的 数据 

// 生成 构造 决策 树 的 参数 

CvDTreeParams tree params( params.max depth, params.min sample count, 
params.regression accuracy, params.use surrogates, params.max categories, 
params.cv folds, params.use_lse rule, false, params.priors ); 

// 生成 训练 数据 

data =new CvDTreeTrainData(); 

data-»set data( train data, tflag, responses, var idx, 
_sample idx, var type, missing mask, tree params, true); 

int var count -data-»var count; // 特征 数 

// 如 果 采 样 特征 数 超过 总 特征 数 ,做 截断 处 理 

if ( params.nactive_vars >var_count ) 
params .nactive_vars =var_count; 

=0) // 如 果 采 样 特征 数 是 0, 设 为 默认 值 


params.nactive vars = (int)sqrt((double)var count); // 默认 值 








else if( params.nactive vars 


else if( params.nactive vars <0 ) 
CV Error( CV StsBadArg, "<nactive_vars>must be non-negative" ); 
// 创建 特征 分 量 的 活跃 掩 码 , 即 哪些 特征 分 量 被 用 来 做 分 裂 候 选 
// 这 是 一 个 行 向 量 
active var mask =cvCreateMat ( 1, var count, СУ 80С1 ); 
// 初始 化 变量 重要 性 数组 
if( params.calc var importance ) 


t 
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var_importance =cvCreateMat ( 1, var_count, CV_32FC1 ); 


cvZero(var importance); 


{ // 初始 化 这 个 掩 码 数组 
CvMat submask1, submask2; 
CV Assert( (active_var_mask->cols >=1) && (params.nactive vars >0) && 
(params.nactive vars «-active var mask-»cols) ); 
// 取出 active var mask 的 前 params.nactive vars 列 
cvGetCols( active var mask, &submaskl, 0, params.nactive vars ) 7 
// 将 前 params.nactive vars 列 设置 为 1 
cvSet( &submaskl, cvScalar(1) ) 7 
if( params.nactive_vars <active_var_mask->cols ) 
i 
// 取出 active var mask 剩余 的 列 
cvGetCols( active var mask, &submask2, params.nactive vars, var count ); 
// 将 这 些 列 初始 化 为 0 
// 这 段 代码 实现 的 效果 实际 上 是 ,第 一 次 采样 时 ,选择 的 是 前 nactive vars 
// 个 特征 做 分 裂 , 接 下 来 ,只 要 对 这 个 特征 掩 码 数 组 进行 随机 洗 牌 ， 
// 就 能 达到 随机 选择 nactive vars 个 特征 的 目的 
cvZero( &submask2 ) ; 
) 
) 
// 这 个 函数 负责 训练 每 一 棵 树 
return grow forest( params.term crit ); 


) 
训练 每 一 棵 决策 树 由 grow. forest 函数 实现 。 代 码 如 下 : 


bool CvRTrees::grow forest( const CvTermCriteria term crit ) 
{ 
// 样本 Bootstrap ЖАТУ ЖОП, BOX PÉ p rh ñ PË ЖИЕН у 0xff, 否 则 为 0 
CvMat * sample idx mask for tree =0; 
// Ж Bootstrap 采样 选中 的 样本 的 编号 数组 
CvMat* sample idx for tree =0; 


// 决策 树 的 最 大 数量 

const int max ntrees =term crit.max iter; 

// оов 误差 的 最 大 值 

const double max oob err =term crit.epsilon; 

const int dims -data-»var count; // 特征 向 量 的 维 数 
float maximal_response =0; // 响应 的 最 大 值 


// оов 样本 响应 值 的 投票 结果 ,用 于 分 类 问题 
CvMat * oob sample votes-0; 

// оов 样本 响应 值 , 用 于 回归 问题 

CvMat * oob responses =0; 


// оов 样本 的 置换 指针 
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float * oob samples perm ptr-0; 
// 样本 数组 的 首 地 址 指针 
float * samples ptr-0; 
// 属性 缺失 掩 码 数组 的 首 地 址 指针 
uchar* missing ptr=0; 
// 样本 响应 值 数 组 的 首 地 址 指针 
float* true resp ptr=0; 
// 计算 оов 误差 ,或 者 计算 变量 的 重要 性 
bool is оор or vimportance = (max оор err >0 && term crit.type != 
CV TERMCRIT ITER) || var importance; 
// 单个 样本 在 所 有 决策 树 оов 集合 中 的 预测 值 的 累加 和 
CvMat оор predictions sum -cvMat( 1, 1, CV 32FCl); 
// 单个 样本 在 所 有 决策 树 оов 集合 中 被 预测 的 次 数 
CvMat oob num of predictions =cvMat ( 1, 1, CV_32FC1 ); 
nsamples -data-»sample count; // 总 样本 数 
nclasses =data->get_num_classes(); // 类 别 数 
// 计算 оов 误差 或 者 变量 的 重要 性 
if (is oob or vimportance ) 
t 
// 如 果 是 分 类 问题 
if(data-»is classifier) 
{ 
// 创建 оов 投票 数组 ,数组 的 行 数 为 总 样本 数 , 列 数 为 类 别 数 
оор sample votes =cvCreateMat ( nsamples，nclasses，CV_32SC1 ); 
// 数组 初始 化 为 0 
cvZero(oob sample votes); 
l 
else 
f 
// 如 果 是 回归 问题 ,创建 ooB 预测 数组 
// оор responses [0] [i] 为 第 工 个 样本 对 所 有 决策 树 的 预测 值 之 和 
// oob_responses [1] [i] 为 第 工 个 样本 被 所 有 决策 树 的 预测 次 数 
оор responses =cvCreateMat ( 2, nsamples, CV 32FCl); 
// 整个 数组 初始 化 为 0 
cvZero(oob responses); 
cvGetRow( oob responses, &oob predictions sum, 0); 
cvGetRow( oob responses, &oob num of predictions, 1); 
} 
oob samples perm ptr- (float * )cvAlloc( sizeof (float) * nsamples * dims ); 
samples ptr- (float * )cvAlloc( sizeof (float) * nsamples * dims ); 
missing_ptr= (uchar * )cvAlloc( sizeof (uchar) * nsamples * dims ); 
true resp ptr- (float * )cvAlloc( sizeof (float) * nsamples ); 
data-»get vectors( 0, samples ptr, missing ptr, true resp ріг); 


double minval, maxval; 








А 


278) WEISE 


CvMat responses =cvMat (1, nsamples, CV_32FC1, true_resp_ptr); 
cvMinMaxLoc( &responses, &minval, &maxval ); 
maximal response = (float) МАХ ( MAX ( fabs (minval), fabs (maxval) ), 0); 
} 
// 为 所 有 的 决策 树 指针 分 配 空间 
trees = (CvForestTree * * )cvAlloc( sizeof (trees[0]) * max_ntrees ); 
memset ( trees, 0, sizeof (trees[0]) * max ntrees ); 
// 创建 Bootstrap 采样 掩 码 数 组 
sample idx mask for tree =cvCreateMat (1, nsamples, CV_8UC1 ); 
sample_idx for tree =cvCreateMat ( 1, nsamples, CV 32SCl); 
ntrees =0; 
// 依次 训练 每 一 棵 树 
while( ntrees <max_ntrees ) 
{ 
int i, oob samples count =0; 
double ncorrect responses -0; // 用 于 估算 变量 的 重要 性 
CvForestTree* tree =0; 
cvZero( sample idx mask for tree); 
// 随机 抽样 n 个 样本 用 来 训练 决策 树 ， 即 Bootstrap 采样 
for(i =0; і <nsamples; i++) 
{ 
// 生成 [0, nsamples-1] 均 匀 分 布 的 随机 数 idx 
int idx =cvRandInt( &rng ) $nsamples; 
// 第 idx 个 样本 被 选中 
sample idx for tree-»data.i[i] =idx; 
sample idx mask for tree-»data.ptr[idx] = 0хЕЕ; 
) 
// 训练 第 ntrees 棵 树 
trees [ntrees] =new CvForestTree(); 
tree =trees[ntrees]; 
// 训练 决策 树 ,sample_idx_ for tree 中 是 被 抽样 选中 的 样本 的 编号 
tree->train( data, sample idx for tree, this ); 
// 如 果 需 要 计算 оов 误差 或 变量 的 重要 性 
if (is oob or vimportance ) 
{ 
CvMat sample, missing; 
// 被 选中 的 特征 
sample =cvMat ( 1, dims, CV_32FC1, samples ptr); 
// 没有 被 选中 的 特征 
missing =cvMat (1, dims, CV_8UC1, missing ptr); 
oob_error =0; // оов 误差 初始 化 为 0 
// 下 面 的 循环 用 于 计算 оов 样本 的 误差 
// 依次 处 理 每 个 样本 


for(i=0; i <nsamples; i++, 
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sample.data.fl +=dims, missing.data.ptr +=dims ) 


CvDTreeNode * predicted node =0; 
// 检查 第 i 个 样本 是 不 是 оов 样本 ,如 果 不 是 ,直接 跳 过 
if( sample idx mask for tree->data.ptr[i] ) 
continue; 
// 用 当前 训练 出 来 的 决策 树 对 оов 样本 进行 预测 
if( !predicted node ) 
predicted node =tree->predict (&sample, &missing, true); 
if( !data->is classifier ) // 如 果 是 回归 问题 ,计算 回归 误差 
{ 
double avg resp, resp =predicted_node->value; 
// 累加 回归 值 
oob_predictions_sum.data.fl[i] += (float)resp; 
// 累加 样本 的 预测 次 数 
oob num of predictions.data.fl[i] *-1; 
// 计算 оов 误差 
// 先 计 算 平 均 预 测 值 


avg_resp = 


oob predictions sum.data.fl[i]/oob num of predictions.data.fl[i]; 


// 与 真实 输出 值 相 减 
avg resp --true resp ptr[i]; 
// 误差 平方 和 累加 
oob_error +=avg_resp* avg_resp; 
resp = (resp -true resp ptr[i])/maximal response; 
ncorrect responses *-exp( -resp* resp); 
) 
else // 如 果 是 分 类 问题 
{ 
double prdct_resp; 
CvPoint max_loc; 
CvMat votes; 
// 累加 第 z PEAR AR SEE, BUSS 工 个 样本 的 第 class_idx 类 的 
// 投票 结果 加 1 
cvGetRow(oob sample votes, &votes, i); 
votes.data.i[predicted_node->class_idx]++; 
// 寻找 最 大 投票 值 
cvMinMaxLoc( &votes, 0, 0, 0, &max loc); 
// 累加 оов 误差 
// 得 到 样本 的 分 类 结果 
prdct resp -data-»cat map-»data.i[max loc.x]; 
// 如 果 prdct resp ==true_resp_ptr[i], 即 分 类 正确 ,不 累加 误差 
// 否则 误差 加 1 


oob error += (fabs (prdct resp -true resp ptr[i]) <FLT EPSILON) 


?0:1; 
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} 


} 


// 被 正确 分 类 的 次 数 
ncorrect responses +=cvRound (predicted node-»value - 


true resp ptr[i]) ==0; 


oob samples count++; // оов 样本 数 累 加 


// оов 误差 为 总 误差 除 以 00B 样本 数 


if( oob samples count >0 ) 


{ 


oob_error /= (double)oob samples count; 
// 下 面 的 代码 计算 变量 的 重要 性 


if( var importance && оор samples count >0 ) 


int m; 


memcpy ( oob samples perm ptr, samples ptr, 


dims * nsamples * sizeof (float) ); 


// 对 特征 向 量 的 每 一 维 , 即 依次 计算 每 个 特征 的 重要 性 


for( m =0; m<dims; m+) 


{ 


double ncorrect_responses_permuted =0; 
float * mth var ptr =oob_samples_perm_ptr +m; 
// 随机 置换 两 个 样本 的 特征 
for( i =0; i <nsamples; i++) 
t 
int il, i2; 
float temp; 
if( sample idx mask for tree-»data.ptr[i]) 
continue; 
11 -cvRandInt( &rng ) $nsamples; 
i2 -cvRandInt( &rng ) $nsamples; 
CV SWAP( mth var ptr[il* dims], mth var ptr[i2* dims], 
temp ); 
if(m»1) 
oob samples perm ptr[i * dims*m-1] = 
samples ptr[i* dims*m-1]; 
} 
sample =cvMat (1, dims, CV 32FCl, оор samples perm ptr); 
missing =cvMat ( 1, dims, CV 80С1, missing ptr); 
// 依次 处 理 每 个 样本 
for( і =0; і <nsamples; i++, 


sample.data.fl +=dims, missing.data.ptr +=dims ) 


double predct_resp, true_resp; 
// 如 果 不 是 оов 样本 , 跳 过 
if( sample idx mask for tree->data.ptr[i] ) 


continue; 
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// 用 当前 训练 出 来 的 决策 树 进 行 预测 
predct resp =tree->predict (&samp1e, &missing, true)->value; 
true resp =true resp ptr[i]; 
// 如 果 是 分 类 问题 
if(data-»is classifier ) 
ncorrect_responses_permuted +=cvRound(true_resp - 
predct_resp) ==0; 
else // 如 果 是 回归 问题 
{ 
true_resp = (true_resp -predct_resp) /maximal_response; 
ncorrect_responses_permuted += 
exp(-true resp* true resp); 


) 
// 累加 变量 的 重要 性 值 
var_importance->data.fl[m] += (float) (ncorrect_responses 


—ncorrect_responses_permuted) ; 


) 


ntrees++; 
if(term crit.type !=CV_TERMCRIT_ITER && oob error «max oob err) 
break; 
} 
// 如 果 需 要 计算 变量 的 重要 性 


if( var importance ) 
{ 

for ( int vi =0; vi <var_importance->cols; vi++) 

var importance-»data.fl[vi] = (var importance-»data.fl[vi] »0) ? 
var importance-»data.fl[vi] : 0; 

// 重要 性 归 一 化 

cvNormalize( var importance, var importance, 1., 0, CV L1); 
) 
cvFree( &oob samples perm ptr); 
cvFree( &samples ptr); 
cvFree( &missing ptr); 
cvFree( &true resp ptr); 
cvReleaseMat( &sample idx mask for tree); 
cvReleaseMat( &sample idx for tree); 
cvReleaseMat( &oob sample votes ); 
cvReleaseMat( &oob responses ); 


return true; 


12.6.3 ”预测 算法 
预测 算法 由 函数 predict 实现 。 代 码 如 下 : 
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float CvRTrees::predict( const CvMat * sample, const CvMat * missing ) const 
{ 
double result --1; 
int k; 
if ( nclasses >0 ) // 如 果 是 分 类 问题 
{ 
int max_nvotes =07 
int * votes = (int * )alloca( sizeof (int) * nclasses ); 
memset ( votes, 0, sizeof(* votes) * nclasses ); 
// 对 15 ntrees 的 所 有 树 进行 预测 


for( k=0; k <ntrees; k++) 


{ 
CvDTreeNode * predicted node =trees[k]->predict( sample, missing ); 
int nvotes; 
int class idx =predicted node->class idx; 
CV_Assert ( 0 <=class_idx && class idx <nclasses ) 7 
nvotes =++votes[class idx]; // 统计 投票 结果 
if( nvotes >max nvotes ) 
{ 
max_nvotes =nvotes; // 最 大 票数 所 代表 的 类 是 最 终 的 分 类 结果 
result =predicted_node->value; 
) 
) 
) 
else 


{ // 对 于 回归 问题 
result =0; 
for(k-0; k <ntrees; k++)// 用 每 一 棵 决策 树 进行 回归 
result +=trees[k]->predict( sample, missing )->value; 
result /= (double)ntrees; / AT SERI (C 
) 


return (float)result; 


12.7 应 用 
作为 决策 树 的 改进 ,随机 森林 同样 具有 运算 量 小 、 实 现 简单 的 优点 ,得 到 了 广泛 的 应 用 。 


典型 的 应 用 包括 各 种 图 像 和 数据 的 分 类 559 ,水 溶性 预测 中 ,疾病 诊断 中 ,人 脸 检测 与 关键 
点 定位 问题 中 。 
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Boosting 算法 


Boosting 算法 也 是 一 种 集成 学 习 算 法 。 它 的 分 类 器 (学 习 器 ) 由 多 个 弱 分 类 器 (学 习 器 ) 
组 成 ,预测 时 用 每 个 弱 分 类 器 分 别 进行 预测 ,然后 投票 得 到 结果 ;训练 时 依次 训练 每 个 弱 分 
类 器 ,在 这 里 采用 了 与 随机 森林 不 同 的 策略 ,不 是 对 样本 进行 独立 的 随机 抽样 构造 训练 集 ， 
而 是 重点 关注 被 前 面 的 弱 分 类 器 错 分 的 样本 。 弱 分 类 器 是 很 简单 的 分 类 器 , 它 计算 量 小 且 
精度 不 用 太 高 。 

AdaBoost 算法 由 Freund 等 人 提出 中 ,是 Boosting 算法 的 一 种 实现 版 本 。 在 最 早 的 
版 本 中 ,这 种 方法 的 弱 分 类 器 带 有 权重 ,分 类 器 的 预测 结果 为 弱 分 类 器 预测 结果 的 加 权 和 。 
训练 时 训练 样本 具有 权重 ,并 且 会 在 训练 过 程 中 动态 调整 ,被 前 面 的 弱 分 类 器 错 分 的 样本 会 
加 大 权重 ,因此 算法 会 更 关注 难 分 的 样本 。2001 年 级 联 的 AdaBoost 分 类 器 被 成 功用 于 人 
脸 检测 问题 ,此 后 它 在 很 多 模式 识别 问题 上 得 到 了 应 用 。 


13.1 AdaBoost 算法 简介 


AdaBoost 算法 的 全 称 是 自 适应 Boosting( Adaptive Boosting) ,是 一 种 用 于 二 分 类 问题 
的 算法 , 它 用 弱 分 类 器 的 线性 组 合 来 构造 强 分 类 器 。 弱 分 类 器 的 性 能 不 用 太 好 , 仅 比 随机 猜 
测 强 ,依靠 它们 可 以 构造 出 一 个 非常 准确 的 强 分 类 器 。 强 分 类 器 的 计算 公式 为 


F(x) = У) аР, (х) 


其 中 ,x ЛЕ FGO AE AIRE f, GO E38 ОК a ЖЫЙ SPIRE ALE Т 为 弱 分 类 器 
的 数量 , 弱 分 类 器 的 输出 值 为 十 1 或 一 1, 分 别 对 应 正 样本 和 负 样 本 。 分 类 时 的 判定 规则 为 
sgn (F(x)) 
强 分 类 器 的 输出 值 也 为 十 1 或 一 1, 同 样 对 应 于 正 样本 和 人 负 样 本 。 弱 分 类 器 和 它们 的 权 
重 通过 训练 算法 得 到 。 之 所 以 叫 弱 分 类 器 是 因为 它们 的 精度 不 用 太 高 ,对 于 二 分 类 问题 ,只 
要 保证 准确 率 大 于 0. 5 即 可 , 即 比 随机 猜测 强 ,随机 猪 测 也 有 50% 的 准确 率 。 


13.2 训练 算法 


训练 时 ,依次 训练 每 一 个 弱 分 类 器 ,并 得 到 它们 的 权重 值 。 在 这 里 ,训练 样本 带 有 权重 
值 ,初始 时 所 有 样本 的 权重 相等 ,在 训练 过 程 中 .被 前 面 的 弱 分 类 器 错 分 的 样本 会 加 大 权重 ， 
反之 会 减 小 权重 ,这 样 接 下 来 的 弱 分 类 器 会 更 加 关注 这 些 难 分 的 样本 。 弱 分 类 器 的 权重 值 
根据 它 的 准确 率 构造 ,精度 越 高 的 弱 分 类 器 权重 越 大 。 给 定 ! 个 训练 样本 (x;, yi) ,其 中 ,x; 
是 特征 向 量 ,y; 为 类 别 标签 ,其 值 为 十 1 或 一 1。 训 练 算法 的 流程 如 下 。 
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初始 化 样本 权重 值 ,所 有 样本 的 初始 权重 相等 : 
w= 1/1, i= l,l 
循环 ,对 1 二 1,2,…,T 依次 训练 每 个 弱 分 类 器 : 
训练 一 个 弱 分 类 器 f(x) ,并 计算 它 对 训练 样本 集 的 错误 率 e, 
计算 弱 分 类 器 的 权重 : 
а = +In (1 —4)/6) 
更 新 所 有 样本 的 权重 ， 
wi = wh exp (— уа,/,(х;))/7, 
其 中 ,2 为 归 一 化 因子 , 它 是 所 有 样本 的 权重 之 和 : 


1 


Z, = У) wht exp (—у,/‹(х)) 


结束 循环 
最 后 得 到 强 分 类 器 : 


T 
sgn(F(x)) = sgn( Dafa) 
t=1 


根据 计算 公式 ,错误 率 低 的 弱 分 类 器 权重 大 , 它 是 准确 率 的 增 函 数 。 沿 用 第 12 зер ДЕ 
集体 会 诊 的 例子 ,如 果 在 之 前 的 诊断 中 医生 的 技术 更 好 ,对 病人 情况 的 判断 更 准确 ,那么 可 
以 加 大 他 在 此 次 会 诊 时 说 话 的 分 量 ( 即 权重 )。 弱 分 类 器 在 训练 样本 集 上 的 错误 率 计算 公 
式 为 


“= (X wt |f G0 — y| y22: ur 
在 这 里 考虑 了 样本 权重 值 。 因 为 可 以 保证 在 训练 集 上 弱 分 类 器 的 正确 率 大 于 0. 5, Br 
以 有 
(1—6)/e >1 
因此 , 弱 分 类 器 的 权重 大 于 0。 弱 分 类 器 的 错误 率 小 于 0. 5 是 能 保证 的 ,如 果 准 确 率 小 
于 0.5, 只 需要 将 弱 分 类 器 的 输出 反 号 即 可 。 对 于 被 弱 分 类 器 正确 分 类 的 样本 ,有 
y f ,(x,) =+ 1 
对 于 被 弱 分 类 器 错误 分 类 的 样本 ,有 
vif (x) 一 一 
如 果 不 考 虑 归 一 化 因子 ,样本 权重 更 新 公式 可 以 简化 为 
еч хш , fix) = yi 
Ё Xx, file) 5 y, 


E zm 





由 于 


с = Jefe) 
它 可 以 进一步 可 以 简化 成 
‚_ [Vel Amey хш, у(х) = y 
| J/(1—e&)/e Xw, р(х) Z yi 
被 上 一 个 弱 分 类 器 错误 分 类 的 样本 本 轮 权重 会 增 大 ,正确 分 类 的 样本 本 轮 权重 减 小 , 训 
练 下 一 个 弱 分 类 器 时 算法 会 关注 在 上 一 轮 中 被 错 分 的 样本 。 这 类 似 于 人 们 日 常生 活 中 的 做 
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法 : 一 个 学 生 在 每 次 考试 之 后 会 调整 他 学 习 的 重点 ,本 次 考试 做 对 的 题目 下 次 不 再 重点 学 
习 ; 而 对 于 做 错 的 题目 下 次 要 重点 学 习 , 以 期 待考 试 成 绩 能 够 提高 。 给 样本 加 权重 是 有 必要 
的 ,如 果 样 本 没有 权重 ,每 个 弱 分 类 器 的 训练 样本 是 相同 的 ,训练 出 来 的 弱 分 类 器 也 是 相同 
的 ,这 样 训练 多 个 弱 分 类 器 没有 意义 。AdaBoost 算法 的 核心 思想 是 关注 之 前 被 错 分 的 样 
本 ,准确 率 高 的 弱 分 类 器 有 更 大 的 权重 。 

上 面 的 算法 中 并 没有 说 明 弱 分 类 器 是 什么 样 的 ,具体 实现 时 应 该 选择 什么 样 的 分 类 器 
作为 弱 分 类 器 ? 在 实际 应 用 时 一 般 用 深度 很 小 的 决策 树 , 在 后 面 会 详细 介绍 。 强 分 类 器 是 
弱 分 类 器 的 线性 组 合 ,如 果 弱 分 类 器 是 线性 函数 ,无 论 怎样 组 合 , 强 分 类 器 都 是 线性 的 , 因 
此 ,应 该 选择 非 线性 的 分 类 器 做 弱 分 类 器 。 

随机 森林 和 AdaBoost 算法 都 是 集成 学 习 算 法 ,一 般 都 由 多 棵 决策 树 组 成 ,但 是 在 多 个 
方面 有 所 区 别 , 如 表 13. 1 所 示 。 


表 13.1 随机 森林 与 AdaBoost 算法 的 比较 






































比较 项 目 随机 森林 AdaBoost 
决策 树 规模 大 小 
是 否 对 样本 进行 随机 采样 是 a 
是 否 对 特征 进行 随机 采样 是 a 
弱 分 类 器 是 否 有 权重 无 有 
训练 样本 是 否 有 权重 无 有 
是 否 支 持 多 分 类 是 不 直接 支持 
是 否 支持 回归 问题 是 不 直接 支持 


随机 森林 和 AdaBoost 算法 都 是 通过 构造 不 同 的 样本 集训 练 多 个 弱 分 类 器 ,前 者 通过 
样本 抽样 构造 不 同 的 训练 集 , 后 者 则 通过 给 样本 加 上 权重 构造 不 同 的 样本 集 。 随 机 森林 中 
的 决策 树 不 能 太 简单 ,过 于 简单 的 决策 树 会 导致 随机 森林 精度 很 低 。AdaBoost 却 没有 这 个 
问题 ,即使 用 深度 为 1 的 决策 树 ,将 它们 集成 起 来 也 能 得 到 非常 高 的 精度 , 这 得 益 于 
AdaBoost 的 弱 分 类 器 带 有 权重 信息 ,并 且 也 重点 关注 了 之 前 被 错 分 的 样本 。 


13.3 训练 误差 分 析 


弱 分 类 器 的 数量 一 般 是 一 个 人 工 设 定 的 值 , 下 面 分 析 它 和 强 分 类 器 准确 率 之 间 的 关系 。 
首先 证 明 如 下 结论 : 强 分 类 器 在 训练 样本 集 上 的 错误 率 上 界 是 每 一 轮 调整 样本 权重 时 权重 
归 一 化 因子 的 乘积 , 即 下 面 的 不 等 式 成 立 : 


Pane = +>) [sem CF) © у, ]< II z, 
其 中 ,poo 是 强 分 类 器 在 训练 样本 集 上 的 错误 率 ,1 为 训练 样本 数 ,Z, 为 训练 第 ТЛ ЖЕ 
时 样本 权重 归 一 化 因子 。[， ]〗 为 指示 函数 ,如 果 条 件 成 立 其 值 为 1, 否则 为 0。 下 面 给 出 这 
一 结论 的 证 明 , 首 先 证 明 下 面 的 不 等 式 成 立 : 
[s = sgn (F(xi)) ]< exp (— y:F (x;) ) 
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在 这 里 分 两 种 情况 讨论 ,如 果 样 本 被 错 分 , 则 有 
[». = sgn (F(xj)) ] =1 
样本 被 错 分 意味 着 y; 和 F(x;) 异 号 ,因此 : 
— yF (xi) > 0 
从 而 有 
exp(— y;F(x;)) > exp(0) = 1 
如 果 样 本 被 正确 分 类 , 则 有 
D. = sgn (F(x)) | = 0 
而 对 任意 的 > 有 e> 人 恒 成 立 。 综合 上 述 两 种 情况 ,上 面 的 不 等 式 成 立 。 按 照 权重 更 
新 公式 ,有 
wi = wi exp(— yia,f,(x,))/Z, 
将 等 式 两 边 同 乘 以 归 一 化 因子 Z,, 可 以 得 到 
wt lexp(— уга, Ѓ,(х:)) = wiZ, 
反复 利用 上 面 这 个 等 式 ,可 以 把 Z, 提 出 来 。 假 设 样本 初始 权重 为 w? 二 1/1, 因 此 有 


a 


1 1 
: expe y F (x;)) ; > exp ( х» 2 Ja, fi Gu) 
i=1 i=1 


mn 








1 * 
= > w? exp (— ж» 2) а. Gr) ) 
i=l t=1 
£ T 
=>) (wexp (— ym х) )exp (— y: Dy e,f,Gxi) )) 
i=l t=2 
1 T 
= У) Ziwlexp (=) 2j af Gr) ) 
i=l t= 
a * 
=Z, У) wlexp (— y; 27 fi) 
i=l t=2 
3 
= | Z: 


前 面 已 经 证 明了 不 等 式 [ ys AsenCFCx,)) |<exp(—y,F G0 成 立 ,因此 有 
15) [sencF o Z y, ] < 1 exp зу) = II z; 
接 下 来 证 明 另 外 一 个 不 等 式 成 立 : B B 
Ha = Ie e, (1—e) = Il (1—47) 2 x) 


t=1 t=1 





Hop: 
w= 
AE ER RA ВСЕ BJ Tr оК 


—e, 


1 
2 


1 
2, = Mut exp(— уа, f, Cx; )) 
i=l 
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š 1 


= b» wt exp(— a) + 29 wi exp(a,) 


i=l =f, a) i=l y FF, ap) 
= (1— e)expC— a) + e,exp(a,) 
2 Ve (1—e) = VI-4% 
在 这 里 利用 了 错误 率 e, 以 及 弱 分 类 器 权重 a, 的 定义 。 由 于 在 上 一 轮 迭 代 时 权重 是 归 一 























化 的 ,因此 有 
1 1 1 
> ow D w=) шт 1 
i-ly Ef, ap i-em i=1 
根据 错误 率 的 定义 ， 
1 1 1 
«= (уш! 1700 — yi |)/22 У) ш! 
i=1 i=l 


i=l y f ap 
34 e =0.5 时 ,2 Ver(1 一 e/) 有 极 大 值 1, 即 Z,==1。 弱 分 类 器 能 够 保证 e, <0. 5, 因 此 有 Z< 
1。 每 增加 一 个 弱 分 类 器 强 分 类 误差 的 上 界 都 会 乘 上 一 个 小 于 1 的 因子 ,上 述 结论 在 理论 上 
保证 了 算法 在 训练 集 上 的 误差 上 界 会 随 着 弱 分 类 器 个 数 的 增加 而 减少 。 接 下 来 证 明 下 面 的 
不 等 式 成 立 : 
М = 477 < exp (— 277) 
由 于 不 等 式 两 边 都 大 于 0, 因 此 可 以 两 边 平方 ,这 等 价 于 证 明 当 z 之 0 时 下 面 不 等 式 
成 立 : 
1—4zx (є)? 
构造 如 下 函数 
(е7 )2 —1+4z 
其 导数 为 
&—4 (e yr > 0 
因此 , 当 250 时 这 是 个 增 函 数 , 当 z=0 时 0 是 最 小 值 。 综 合 上 面 两 个 结论 的 不 等 式 
可 以 得 到 下 面 的 结论 : 


T 
Pao < exp (—2 >, 71) 
t=1 


这 个 结论 指出 , 随 着 迭代 的 进行 , 强 分 类 器 的 训练 误差 会 以 指数 级 下 降 。 随 着 弱 分 类 器 
数量 的 增加 ,算法 在 测试 样本 集 上 的 错误 率 一 般 也 会 持续 下 降 。AdaBoost 算法 不 仅 能 够 减 
小 模型 偏差 ,还 能 减 小 方差 。 由 于 会 关注 错 分 样本 ,因此 对 噪声 数据 可 能 会 比较 敏感 。 


13.4 广义 加 法 模型 


可 以 用 广义 加 法 模型 中 解释 AdaBoost 算法 的 优化 目标 ,从 而 推导 出 其 训练 算法 。 广 
义 加 法 模型 拟 合 的 目标 函数 是 多 个 基 函 数 的 线性 组 合 : 
F(x) = DAS 7) 
其 中 ,7y; WIE RAS AL ; BSE PRB BUR Ж ЖС. IL ART EE f ЛЕ AY ЛЕ ЭЕ РЕ ЖОЛУ EC HS OE 


值 。 训 练 的 目标 是 最 小 化 对 所 有 样本 的 损失 函数 : 
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1 M 
ming, 2 L (yo 2) B f xo) 
i=1 ј=1 


WAG SE d AR WK tfi +E BE ME ра Be A SAMA Ж. ВЕТО M X A ТН 
AdaBoost 训练 算法 ,从 而 给 AdaBoost 算法 以 理论 上 的 解释 。 首 先 定义 强 分 类 器 对 单个 训 
练 样本 的 损失 函数 : 

L (y,FGO) = exp(— yF (x)) 

在 这 里 使 用 了 指数 损失 函数 。 如 果 标 签 值 与 强 分 类 器 的 预测 值 越 接近 ,损失 函数 的 值 
越 小 ,反之 越 大 。 使 用 指数 损失 函数 而 不 用 均 方 误差 损失 函数 的 原因 是 均 方 误差 损失 函数 
对 分 类 问题 的 效果 并 不 好 。 将 广义 加 法 模型 的 预测 函数 代入 上 面 的 损失 函数 中 ,得 到 算法 
训练 时 要 优化 的 目标 函数 为 


1 
(B; f;) = arg mings >) exp (— y: (Е; (xi) + Bf (x,)) ) 
i-1 


这 里 将 指数 函数 拆 成 两 部 分 ,已 有 的 强 分 类 器 Fn ,以 及 当前 弱 分 类 器 f XJ I FÉ 
本 的 损失 函数 ,前 者 在 之 前 的 迭代 中 已 经 求 出 ,因此 可 以 看 成 常数 。 这 样 目标 函数 可 以 
简化 为 


ming, > wi exp(— By. f Gi) 
其 中 ， 
wi! = exp(— y,Fj-1(x,)) 
它 只 和 前 面 迭代 得 到 的 强 分 类 器 有 关 , 与 当前 的 弱 分 类 器 、 弱 分 类 器 权重 无 关 , 这 就 是 
样本 权重 。 这 个 问题 可 以 分 两 步 求 解 ,首先 将 8 看 成 常数 ,由 于 y; 和 f(x;) 的 取 值 只 能 为 
十 1 或 一 1 ,显然 ,要 让 上 面 的 目标 函数 最 小 化 ,必须 让 二 者 相等 。 因 此 ,损失 函数 对 f(x) 的 


最 优 解 为 


f, = arg min, >) wiI (у; Z fa») 
其 中 ,I 是 指标 函数 ,根据 括号 里 的 条 件 是 否 成 立 . 其 取 值 为 0 或 者 1。 上 式 的 最 优 解 是 使 得 
对 样本 的 加 权 误 差 率 最 小 的 那个 分 类 器 。 得 到 弱 分 类 器 之 后 ,优化 目标 可 以 表示 成 8 的 
ЮЖ: 
ex У) wex >) wr 


x= hj) HFG) 


上 式 前 半 部 分 是 被 正确 分 类 的 样本 ,后 半 部 分 是 被 错误 分 类 的 样本 。 这 可 以 写成 
F (B) = (ее?) X P whl (у; # fi) Fe? x Уу uf? 
具体 推导 过 程 为 
e?. bM witeé. У) wi! 


»-f;Gp xo) 


=e”. 5 ші He”. N wi!—e?. 25 wht Бе? + by wi? 


»=7; «д Fj) FF, D xf 
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=e. У) wi + eter)» У) ш! 


i=1 эел; 





=”. > wi! + (е-е?) • = wily: Æ f; (x;)) 
函数 在 极 值 点 的 导数 为 0, 即 


1 


1 
(Pte?) +d) whl (у, © fi) e? Pul! = 0 
i=1 


i=l 


由 此 得 到 关于 p 的 方程 : 
(е-е?) • err; — e? = 0 
最 优 解 为 
E lin 1 — ert; 
2 err; 


其 中 ,err 为 弱 分 类 器 对 训练 样本 集 的 加 权 错 误 率 : 


err; = (D wil (y; # f G0))/ (22 wt?) 
15 58] 4 ii AY ЯЯ СА АГЗЫ Т PR ЖООШ F Br: 
F(x) = Fja G0 +B f; GO 
导致 下 次 迭代 时 样本 的 权重 为 


一 pysf (x) 
wi = wile еб 


这 就 是 样本 权重 的 更 新 公式 。AdaBoost 训练 算法 是 求解 上 述 最 优化 问题 的 过 程 。 
13.5 各 种 AdaBoost 算法 
从 广义 加 法 模型 可 以 推导 出 4 种 类 型 的 AdaBoost 算法 中 ,它们 的 弱 分 类 器 不 同 ,训练 
时 优化 的 目标 函数 也 不 同 , 下 面 分 别 进行 介绍 。 
13.5.1 离散 型 AdaBoost 


离散 型 AdaBoost 算法 就 是 13. 2 节 介绍 的 算法 ,在 13.4 节 中 从 广义 加 法 模型 推导 出 了 
它 的 训练 算法 。 这 里 从 另 一 个 角度 解释 , 它 用 牛顿 法 求解 加 法 logistic 回归 模型 。 
在 第 11 章 中 介绍 了 对 数 似 然 比 的 概念 。 对 于 二 份 类 问题 ,加 法 logistic 回归 模型 拟 合 








的 目标 函数 为 对 数 似 然 比 : 
ply 一 十 1 | x) V 
In^ ede F(x) эло) 
即 用 多 个 函数 的 和 来 拟 合 对 数 似 然 比 函数 。 对 上 式 变 形 可 以 得 到 
ply=+1|x) _ 
pl 二 exp(F(x)) 
由 于 一 个 样本 不 是 正 样本 就 是 负 样 本 ,因此 它们 的 概率 之 和 为 1, 联 合 上 面 的 方程 可 以 
解 得 
ply =+1|x) Í 








1+ exp(— F(x)) 
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这 就 是 logistic 回归 的 概率 预测 函数 。 离 散 型 AdaBoost 算法 的 训练 目标 是 最 小 化 指 
数 损失 函数 : 
L(F(x)) = E(exp(— yF (x))) 
其 中 ,E 为 数学 期 望 ,是 所 有 样本 损失 函数 的 均值 。 可 以 证 明 , 使 得 上 面 的 指数 损失 函数 最 
小 化 的 强 分 类 器 为 
1ь ply =+ 1 | x) 
p (y =—1 |x) 
上 面 的 指数 损失 函数 是 对 x ЯП y 的 联合 概率 的 期 望 ,最 小 化 它 等 价 于 最 小 化 如 下 条 件 
期 望 值 , 由 于 y 的 取 值 有 两 种 情况 ,因此 有 
E(exp(— yF(x)) | x) = p(y =+ 1 | x) expC— F(x)) + p(y =— 1 | x)exp(F(x)) 
对 F(x) 求 导 并 令 导 数 为 0, 可 以 得 到 
= ply =+ 1 | х)ехр (— F(x)) + p (y =— 1 |x)exp (FG) = 0 
解 这 个 方程 即 可 得 到 上 面 的 结论 。 如 果 用 加 法 模型 表示 强 分 类 器 ,采用 分 阶段 优 
化 的 方法 , 先 优化 弱 分 类 器 再 优化 权重 系数 ,可 以 得 到 离散 型 AdaBoost 训练 算法 的 
流程 。 
之 前 的 迭代 已 经 得 到 强 分 类 器 F(x) ,下 一 步 要 得 到 F(x) 十 cf(x)。 首 先 把 权重 c 和 F(x) 
看 成 常数 ,把 弱 分 类 器 fO) 看 作 变量 对 它 进行 优化 。 根 据 指数 函数 的 泰勒 展开 ,有 
L (F+cf) =E (exp (— у (F(x) +cf(x)))) 
=E (exp (— yF GO )exp (— ycf (x) ) ) 
~E (exp (— yF(x)) (1 — yc f (x) + c! y! f* (x)/2)) 
=E (exp (— yF(x)) (1—yef (x) 4 c*/2)) 


F(x) = 


其 中 ,exp( 一 yF(x)) 是 常数 ,可 以 看 作 样 本 权重 。 最 小 化 上 面 的 损失 函数 等 价 于 求解 如 下 
问题 ; 
min,E,(1— ycf (x) + e° /2 | x) 
其 中 ,Eu(。|x) 为 加 权 条 件 期 望 , 权 重 为 
w = exp(— уЁ(х)) 
因为 权重 c 的 值 大 于 0, 最 小 化 上 面 的 目标 函数 等 价 于 最 大 化 如 下 目标 函数 : 
maxyE, (yf (x)) 

因为 弱 分 类 器 的 输出 值 值 只 能 为 十 1 或 者 一 1, 它 的 最 优 解 为 

+1, Е„(у|х) = poly 1 | z) = py 1[ х) >20 

—1, E,Q( |» = poly 1 | x) — paly 1l» <0 

得 到 弱 分 类 器 之 后 , 接 下 来 优化 权重 : 
min,E,, CexpC— cy f (x))) 

在 13.4 节 中 已 经 推导 过 ,这 个 问题 的 最 优 解 为 


a= lis 











f(x) = 














1 一 err 
err 


其 中 ,err 为 错误 率 。 同 样 可 以 得 到 样本 权重 更 新 公式 ,在 这 里 不 再 重复 推导 。 
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13.5.2 ”实数 型 AdaBoost 


实数 型 AdaBoost 算法 弱 分 类 器 的 输出 值 是 实数 值 , 它 是 向 量 到 实数 的 映射 。 这 个 实 
数 的 绝对 值 可 以 看 作 是 置信 和 度 , 它 的 值 越 大 ,样本 被 判定 为 正 样本 的 可 信和 度 越 高 。 给 定 / 个 
训练 样本 Cx; «y ,训练 算法 的 流程 如 下 。 


初始 化 样本 权重 ш =1/! 
循环 训练 每 个 弱 分 类 器 ,对 m=, M 
根据 训练 样本 集 和 样本 权重 估计 样本 属于 正 样 本 的 概率 : 
р. (х) = poly =+1| x) 
根据 上 一 步 的 概率 值 训练 弱 分 类 器 : 


fax) = 去 InCpa/(1 — 529 
更 新 样本 权重 : 


Wi = w,expC— yif nxi), i= 1,2, 
对 样本 权重 进行 归 一 化 
结束 循环 
输出 强 分 类 器 ， 


sgn (> f. (x) ) 
弱 分 类 器 输出 值 是 样本 属于 正 样本 的 概率 p(x) 和 属于 负 样 本 概率 比值 的 对 数值 : 
fœ = +I (p(x)/ (1— p(x))) 


如 果 样 本 是 正 样本 的 概率 大 于 0. 5, 即 正 样本 的 概率 大 于 负 样 本 的 概率 , 弱 分 类 器 的 输 
出 值 为 正 ,否则 为 负 。 实 数 型 AdaBoost 也 是 用 加 法 logsitic 回归 拟 合 对 数 概 率 比 函数 , 训 
练 时 的 损失 函数 也 是 指数 损失 函数 。 在 前 面 的 迭代 已 经 得 到 了 F(x) ,本 次 迭代 要 确定 的 是 
弱 分 类 器 f(x)。 考 虑 正 负 样 本 两 种 情况 .损失 函数 可 以 写成 

L(F(x) + f(x)) =E(exp(— yF (x))exp(— yf G2) | x) 
=exp(— f(x))E(exp(— yF G)01,24 | x) + 
exp(f(x))E(exp(— yF (x) )1,--1 | x) 

将 上 面 的 函数 对 f(x) 求 导 并 令 导 数 为 0, 可 以 解 得 
1 In E. C... | x) 1 la S. Cl a | x) 
2 B(x) 2 "$5 [x 


另外 ,可 以 得 到 样本 权重 更 新 公式 为 
xo = xo X e 
无 论 是 离散 型 还 是 实数 型 AdaBoost, 都 是 求解 指数 损失 函数 的 最 小 值 问题 , 将 之 前 迭 
代 已 经 得 到 的 强 分 类 器 看 作为 常数 。 


13.5.3 LogitBoost 
广义 加 性 模型 没有 限定 损失 函数 的 具体 类 型 ,离散 型 和 实数 型 AdaBoost 采用 的 是 指 








ШЕ? 





—yf (x) 
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数 损失 函数 。 如 果 把 logistic 回归 的 损失 函数 应 用 于 此 模型 ,可 以 得 到 LogitBoost 的 损失 
М: 


1 
L = УЛ + exp(— y:F (x;))) 
i=1 
给 定 /个 训练 样本 (x;,y;) ,训练 算法 的 流程 如 下 。 
样本 权重 初始 化 tw 二 1/1, 强 分 类 器 F(x) 二 0, 样 本 概率 估计 值 p(x;) 二 1/2 
循环 ,对 m 二 1,2,…,M, 训 练 每 一 个 弱 分 类 器 
计算 每 个 样本 的 工作 输出 与 权重 : 


= yi — р(х) 
P(x) — p(xi)) 


wi = р(х)(1— р(х) 


KP oy? = (yi +-1)/2 
根据 ,Xi,zi 和 权重 wi; 拟 合 一 个 函数 f, (x) 
更 新 强 分 类 器 : 


F(x) = F(x) + + fale) 


更 新 样本 权重 

对 样本 权重 进行 归 一 化 
结束 循环 
输出 强 分 类 器 : 


sgn (> f. (x) ) 


按照 计算 公式 , 当 p(x;) 的 值 接 近 于 0.5 时 re 的 值 更 大 ,接近 于 0 或 1 时 wi 的 值 更 小 ， 
因此 , 它 反 映 了 样本 的 难 分 程度 。 通 过 变换 将 类 别 标签 变 成 0 或 1, 样 本 属于 正 样本 的 概率 
值 可 以 写成 
exp (F(x)) 
exp (F(x)) + exp (— F(x)) 


可 以 证 明 ,LogitBoost 用 牛顿 法 优化 logistic 回归 的 对 数 似 然 函 数 。 假 设 在 下 一 步 迭 代 
中 的 函数 为 FC) +f Ce) ,对 数 似 然 函 数 的 数学 期 望 为 
E(L(F + f)) = E[2y* (F(x) + f(x) — In(1 + eFo*&9» ))] 
在 0 点 处 它 的 一 阶 导 数 和 二 阶 导数 分 别 为 
39EC(QLCFGo + fO) 








pix) 


























g(x) 300 "T 2bECy р(х) | x) 
a i 
HG) EG AEGO LOO) 4E( p(x) (1 — p(x)) | x) 
d(x) f(D=0 
牛顿 法 的 迭代 公式 为 


F(x) < F(x) — H1(x)g(x) 
将 一 阶 导 数 和 二 阶 导数 带 入 牛顿 法 的 迭代 公式 ,可 以 得 到 强 分 类 器 的 更 新 公式 : 


1 E(y" =p(x) |х) ll ( y' — р(х) ) 
ZEGO- PM [o Т а Р” per sen * 











F(x) = F(x) + 
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13.5.4 Gentle 型 AdaBoost 


Gentle 型 AdaBoost 的 弱 分 类 器 是 回归 函数 ,与 实数 型 AdaBoost RM. S E /个 训练 
Ж Сх: s yi) ,训练 算法 的 流程 如 下 。 

样本 权重 初始 化 wi 二 1/1, 强 分 类 器 F(x)=0 
循环 ,对 于 m= 二 1,2,…,M 

根据 x;、z; 和 权重 zi, 拟 合 一 个 函数 f, (x) 

更 新 样本 权重 : 

二 

对 样本 权重 进行 归 一 化 

输出 强 分 类 器 : 


sgn (3 fn) 


可 以 证 明 ,Gentle 型 AdaBoost 是 用 牛顿 法 最 小 化 指数 损失 函数 ,下 面 给 出 证 明 过 程 。 
在 0 点 处 目标 函数 的 一 阶 导 数 和 二 阶 导数 为 


ILC) + f(x)) 
af (x) 


2 (F(x) + fo) 
дух)? 


根据 牛顿 法 的 迭代 公式 有 
F(x) < F(x) + 
其 中 ,权重 定义 为 








ECe^*? у | x) 





f(D=0 








E(e*® y | x) 
fo» =0 


ECe*% y | x) 


ECF? 1x) 一 F(x) + E, Cy | x) 


ш (х,у) = exp (— уЕ(х)) 
Gentle 型 和 实数 型 AdaBoost 的 区 别 在 于 弱 分 类 器 的 选择 上 ,后 者 使 用 的 是 分 类 器 ,前 
者 使 用 的 是 回归 函数 。 表 13. 2 总 结 了 各 种 AdaBoost 求解 的 最 优化 问题 以 及 求解 算法 。 


表 13.2 各 种 AdaBoost 求解 最 优化 问题 与 求解 算法 

















AdaBoost 类 型 优化 目标 函数 求解 算法 
离散 型 AdaBoost 加 法 logistic 回归 模型 ,指数 损失 函数 牛顿 法 
实数 型 AdaBoost 加 法 logistic 回归 模型 ,指数 损失 函数 分 阶段 优化 
Logit 型 AdaBoost logistic 回归 的 对 数 似 然 函 数 牛顿 法 
Gentle 型 AdaBoost 指数 损失 函数 牛顿 法 





标准 的 AdaBoost 算法 只 能 用 于 二 分 类 问题 , 它 的 改进 型 可 以 用 于 多 类 分 类 问题 ,典型 
的 实现 有 AdaBoost. MH 算法 .多 类 Logit 型 AdaBoost。 


13.6 ”实现 细节 问题 


本 节 介 绍 算法 的 实现 细节 问题 ,包括 弱 分 类 器 的 选择 和 弱 分 类 器 数量 的 确定 ,以 及 样本 
权重 削减 技术 ,它们 对 算法 的 精度 至 关 重 要 。 
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选用 什么 分 类 器 作为 弱 分 类 器 是 实现 AdaBoost 算法 时 需要 考虑 的 一 个 问题 。 最 核心 
的 要 求 是 计算 简单 ,而 且 是 非 线性 模型 ,精度 不 用 太 高 。 一 般 选 用 决策 树 , 即 使 是 最 简单 的 
只 有 一 个 内 部 节点 的 决策 树 ,只 要 弱 分 类 器 的 数量 足够 大 , 强 分 类 器 也 有 很 高 的 精度 。 


13.6.2” 弱 分 类 器 的 数量 


弱 分 类 器 的 数量 与 训练 误差 之 间 的 关系 在 前 面 已 经 给 出 结论 。 具 体 用 多 少 个 弱 分 类 器 
合适 ? 这 需要 根据 问题 的 实际 情况 决定 。 一 种 做 法 是 在 训练 时 一 直 增 加 弱 分 类 器 的 个 数 ， 
同时 统计 训练 误差 或 者 测试 误差 , 当 误 差 达到 某 一 指定 的 阔 值 时 终止 迭代 。 在 后 面 的 目标 
检测 应 用 中 会 看 到 这 种 做 法 的 实现 细节 。 


1363 ”样本 权重 削减 


在 训练 过 程 中 , 随 着 样本 权重 调整 ,有 些 样本 的 权重 可 能 会 趋向 于 0。 这 些 样 本 在 后 面 
的 训练 中 所 起 的 作用 不 大 ,因此 可 以 剔除 这 些 样本 ,这 称 为 权重 削减 。 具 体 做 法 是 设 定 一 个 
阅 值 ,在 迭代 时 ,如 果 样 本 的 权重 小 于 该 立 值 , 则 不 参加 后 续 的 训练 。 


13.7 实验 程序 


下 面 通过 实验 程序 来 介绍 AdaBoost 分 类 器 的 使 用 ,程序 基于 OpenCV。 在 这 里 对 两 类 
样本 进行 分 类 ,因为 标准 的 AdaBoost 算法 只 支持 二 分 类 问题 。 同 样 地 ,每 类 训练 样本 的 特 
征 向 量 用 正 态 分 布 随 机 数 生成 。 

程序 源 代码 如 下 : 


int main(int argc, char * * argv) 
{ 
const int kWidth =512, kHeight =512; 
Vec3b red(0, 0, 255), green(0, 255, 0), blue(255, 0, 0); 
Mat image =Mat::zeros(kHeight, kWidth, CV_8UC3); 
// 训练 样本 标签 数组 
int labels[150]; 
for (int i =0 ; i <75; i++) 
labels[i] =1; 
for (int і =75; і <150; i++) 
labels[i] =2; 
Mat trainResponse (150, 1, CV_32SC1, labels); 
// 训练 样本 特征 向 量 数组 
float trainDataArray[150] [2]; 
RNG rng; 
for (int i =0; i<75; i++) 
{ 
trainDataArray[i] [0] =250 +static_cast<float> (rng.gaussian (30) ); 
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trainDataArray[i] [1] =250 +static_cast<float> (rng.gaussian(30)); 
} 
for (int і =75; і <150; i++) 
{ 

trainDataArray[i] [0] =150 +static_cast<float> (rng.gaussian (30) ); 

trainDataArray[i] [1] =150 +static_cast<float> (rng.gaussian (30) ); 
} 
Mat trainData(150, 2, CV_32FC1, trainDataArray); 
float priors[2] = (1, 1}; 
// AdaBoost 训练 参数 , 源 代 码 分 析 中 会 解释 ,在 这 里 设置 弱 分 类 器 的 个 数 为 10 


CvBoostParams params ( CvBoost::REAL, 10, 0.95, 5, false, priors); 





CvBoost boost; 
// 训练 分 类 器 
boost.train(trainData, CV_ROW_SAMPLE, trainResponse, cv::Mat(), cv::Mat(), 
cv::Mat(), cv::Mat(), params); 
// 对 图 像 内 所 有 点 进行 预测 ,显示 不 同 的 颜色 
for (int i =0; i <image.rows; i++) 
{ 
for (int j =0; j <image.cols; j++) 
t 
Mat sampleMat = (Mat «float» (1, 2) <<], i); 
// 调用 AdaBoost 的 预测 函数 
float response =boost.predict (sampleMat) ; 
// 根据 预测 结果 显示 不 同 颜色 
if (response ==1) 
image.at<Vec3b> (i, j) =green; 
else 
image.at<Vec3b> (i, j) =blue; 


} 
// 显示 训练 样本 
for (int i =0; i <trainData.rows; i++) 
{ 
const float * v -trainData.ptr« float» (i); 
Point pt -Point((int)v[0], (int)v[1]); 
if (labels[i] ==1) 
Circle (image, pt, 5, Scalar::all(0), -1, 8); 
else 
circle (image, pt, 5, Scalar::all(255), -1, 8); 
} 
imshow ("AdaBoost classifier demo", image); 
waitKey(0); 
return 0; 


) 
程序 运行 结果 如 图 13.1 所 示 。 
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图 13.1 AdaBoost 实验 程序 运行 结果 


在 图 13. 1 中 所 有 训练 样本 都 被 正确 分 类 ,分 类 界线 是 分 段 直线 ,这 也 说 明 使 用 决策 树 
作为 弱 分 类 器 的 AdaBoost 算法 是 一 个 非 线性 模型 。 可 以 调整 弱 分 类 器 的 数量 以 及 弱 分 类 
器 的 参数 (如 决策 树 的 深度 ) ,观察 不 同 参数 时 的 分 类 结果 , 感 兴趣 的 读者 自己 尝试 


13.8 


源 代 码 分 析 


本 节 分 析 OpenCV 中 AdaBoost 算法 的 实现 , 它 支 持 前 面 介绍 的 4 种 算法 ,它们 都 只 能 
用 于 二 分 类 问题 。 弱 分 类 器 使 用 的 是 决策 树 , 由 类 CvBoostTree 实现 , 它 从 标准 决策 树 类 
CvDTree 继承 ; 强 分 类 器 由 类 CvBoost 实现 。 


13.8.1 


主要 数据 结构 


结构 体 CvBoostParams 是 AdaBoost 算法 的 训练 参数 ,继承 自 CvDTreeParams。 定 义 


WTF: 


struct CV_EXPORTS CvBoostParams: public CvDTreeParams 


{ 


н 


int boost_type; // AdaBoost 的 类 型 ,13.5 节 介绍 的 4 种 类 型 
int weak count; // 弱 分 类 器 的 最 大 数量 

// 决策 树 分 裂 的 度量 指标 ,支持 Gini 系数 、 误 分 类 率 、 均 方 误差 

int split criteria; 

double weight trim rate; // 样本 权重 削减 的 权重 比例 阔 值 
CvBoostParams (); 

CvBoostParams ( int boost_type, int weak count, double weight trim rate, 


int max depth, bool use surrogates, const float * priors ); 


CvBoostTree 继承 自 CvDTree 类 ,是 弱 分 类 器 的 实现 。 它 重 写 了 决策 树 的 训练 函数 ,寻找 


最 佳 分 裂 规 则 相关 的 函数 ,以 及 叶子 节点 值 标记 函数 。 辟 


写 这 些 函 数 的 原因 有 两 个 ,第 一 个 





m 
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原因 是 标准 的 决策 树 在 训练 时 没有 考虑 样本 的 权重 ,而 AdaBoost 的 弱 分 类 器 要 求解 带 权 
重 的 误差 最 小 化 问题 : 


N 
min, Pur"! Cy; Z f Gc) 
i=1 


第 二 个 原因 是 为 了 支持 各 种 AdaBoost 算法 的 实现 ,决策 树 的 输出 值 和 标准 决策 树 也 
有 不 同 。 

CvBoostTree 作为 分 类 树 使 用 时 ,用 于 离散 型 和 实数 型 AdaBoost, 其 输出 值 分 别 为 类 
别 标签 士 1 和 实数 值 。 作 为 回归 树 使 用 时 ,用 于 Logit 和 Gentle 型 AdaBoost, 树 的 输出 值 
为 一 个 实数 值 ,决策 树 所 代表 的 回归 函数 是 分 段 常数 函数 。 对 于 分 类 树 ,比较 阔 值 通过 最 小 
化 Gini 纯度 或 者 误 分 类 率 指标 得 到 ;对 于 回归 树 ,此 阅 值 通过 最 小 化 均 方 误差 得 到 。 

在 这 里 没有 使 用 线性 回归 作为 Logit 和 Gentle 型 AdaBoost 的 弱 分 类 器 ,原因 是 当 特 
征 向 量 维 数 很 高 的 时 候 计 算 开 销 大 ,而 且 线性 模型 的 组 合 还 是 线性 的 。 如 果 使 用 决策 树 , 预 
测 时 每 次 只 使 用 一 个 特征 进行 比较 ,计算 量 会 小 很 多 ,而 且 是 非 线 性 的 。 

CvBoost 是 强 分 类 器 类 , 它 实 现 了 4 种 AdaBoost 算法 。 类 定义 如 下 : 


class CV_EXPORTS CvBoost: public CvStatModel 
{ 
public: 
// AdaBoost 的 4 种 类 型 
enum { DISCRETE=0, REAL=1, LOGIT=2, GENTLE=3 }; 
// 节点 分 裂 的 度量 准则 ,前面 已 经 介绍 过 
enum { DEFAULT=0, GINI=1, MISCLASS=3, SQERR=4 }; 
CvBoost (); 
virtual ~CvBoost () ; 
// 直接 在 构造 时 进行 训练 
CvBoost ( const CvMat * trainData, int tflag, 
const CvMat * responses, const CvMat * varIdx=0, 
const CvMat * sampleIdx=0, const CvMat * varType=0, 
const CvMat * missingDataMask=0, 
CvBoostParams params=CvBoostParams() ); 
// 训练 函数 ,此 次 分 析 的 重点 
virtual bool train( const CvMat * trainData, int tflag, 
const CvMat * responses, const CvMat * varIdx=0, 
const CvMat * sampleIdx=0, const CvMat * varType=0, 
const CvMat * missingDataMask=0, 
CvBoostParams params=CvBoostParams (), 
bool update=false ); 
virtual bool train( CvMLData* data, 
CvBoostParams params=CvBoostParams (), 
bool update- false ); 
// 预测 函数 ,此 次 分 析 的 重点 
virtual float predict( const CvMat * sample, const CvMat * missing=0, 
CvMat * weak responses-0, CvSlice slice-CV WHOLE SEQ, 


bool raw mode-false, bool return sum-false ) const; 
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// 构造 函数 的 包装 ,用 于 支持 Mat, 在 新 的 opencv 版 本 中 用 Mat 取代 cvMat 
CV WRAP CvBoost( const cv::Mat& trainData, int tflag, 
const cv::Mat& responses, const cv::Mat& varIdx-cv::Mat(), 
const cv::Mat& sampleIdx-cv::Mat(), const cv::Mat& varType-cv::Mat(), 
const cv::Mat& missingDataMask- су: :Маї (), 
CvBoostParams params=CvBoostParams() ); 
// 训练 函数 的 包装 ,用 于 支持 Mat 
CV WRAP virtual bool train( const cv::Mat& trainData, int tflag, 
::Mat& varIdx-cv::Mat(), 





const cv::Mat& responses, const c 
const cv::Mat& sampleIdx-cv::Mat(), const cv::Mat& varType-cv::Mat(), 
const cv::Mat& missingDataMask-cv::Mat(), 
CvBoostParams params- CvBoostParams(), 
bool update- false ); 
// 预测 函数 的 包装 ,用 于 支持 Mat 
CV WRAP virtual float predict ( const cv::Mat& sample, 
const cv::Mat& missing-cv::Mat(), 
const cv::Range& slice-cv::Range::all(), bool rawMode- false, 
bool returnSum- false ) const; 
// 计算 弱 分 类 器 的 误差 ,用 来 更 新 样本 权重 .计算 弱 分 类 器 的 权重 


virtual float calc error( CvMLData * data, int type, std::vector<float> * resp = 


0); 

CV WRAP virtual void prune( CvSlice slice ); // 对 强 分 类 器 进行 裁剪 

CV WRAP virtual void clear () ; // 清空 之 前 的 数据 , 即 弱 分 类 器 数组 
// 模型 读 取 和 保存 相关 数据 


virtual void write ( CvFileStorage * storage, const char* name ) const; 


virtual void read( CvFileStorage* storage, CvFileNode* node ); 


// 获取 活跃 变量 
virtual const CvMat * get_active_vars (bool absolute idx-true); 
CvSeq* get weak predictors (); // 返回 弱 分 类 器 数组 


CvMat * get_weights(); 
CvMat* get subtree weights (); 
CvMat* get weak response (); 
const CvBoostParams& get params() const; 
const CvDTreeTrainData * get data() const; 

protected: 
// 更 新 样本 权重 ,核心 的 函数 
void update weights impl( CvBoostTree* tree, double initial weights[2] ); 
virtual bool set params( const CvBoostParams& params ); 
virtual void update weights( CvBoostTree* tree); 
virtual void trim weights (); // 对 样本 按照 权重 进行 削减 
virtual void write params( CvFileStorage* fs) const; 
virtual void read params( CvFileStorage * fs, CvFileNode * node ); 
CvDTreeTrainData * data; // 决策 树 的 训练 样本 数据 
CvBoostParams params; // AdaBoost 训练 参数 
CvSeq* weak; // 弱 分 类 器 数组 
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CvMat * active vars; // 活跃 的 特征 分 量 掩 码 数 组 
CvMat* active vars abs; 
bool have active cat vars; 
CvMat* orig response; // 原始 的 输出 响应 
CvMat* sum response; 
CvMat* weak eval; 
CvMat* subsample mask; 
CvMat* weights; 
CvMat* subtree weights; 
bool have subsample; 
Hu 
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函数 scale 将 决策 树 节点 的 值 乘 以 一 个 系数 ,其 作用 是 为 离散 型 AdaBoost 的 弱 分 类 器 
赋予 权重 ,相当 于 为 弱 分 类 器 的 输出 值 乘 上 权重 系数 。 在 训练 时 调用 的 更 新 样本 权重 函数 
update weights 中 ,每 次 训练 完 一 个 弱 分 类 器 后 对 于 离散 型 AdaBoost 会 调用 该 函数 。 实 现 
代码 如 下 : 


void CvBoostTree: :scale( double scale ) 

{ 
CvDTreeNode * node -root; 
for(;;) // 中 序 遍 历 二 叉 树 
{ 


CvDTreeNode * parent; 


for (77) // 向 左 子 树 前 进 
{ 
node-»value * =scale; // 对 节点 的 值 进行 缩放 , 即 乘 以 scale 
if( !node->left ) // 如 果 没 有 左 子 节点 了 ,跳出 循环 ,向 右 子 树 前 进 
break; 
node =node-> left; // 否则 ,一 直 向 左 子 节点 前 进 


} 

// 向 父 节点 回溯 

for ( parent =node- >parent; parent && parent-> right = = node; 
node =parent, parent =parent->parent ) 
; 

if( !parent ) 
break; 

node =parent-> right; // 向 右 子 树 前 进 


) 

函数 find. split ord. class 为 分 类 树 的 数值 型 变量 寻找 最 佳 分 裂 。 分 裂 的 度量 标准 不 仅 
支持 Gini 系数 ,还 支持 误 分 类 指标 ,另外 还 要 考虑 样本 权重 。 加 上 样本 权重 之 后 Gini 纯度 
计算 公式 为 
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Jü, У) wi 为 左 子 节点 所 有 样本 权重 和 ; > ) wei 为 右 子 节点 所 有 样本 权重 和 ; У) wr 
为 左 子 节点 第 7 类 样本 权重 和 ; > wry 为 右 子 节点 第 7 类 样本 权重 和 。 实 现代 码 如 下 ， 


CvDTreeSplit * CvBoostTree::find split ord class( CvDTreeNode* node, int vi, 


float init quality, CvDTreeSplit* split, uchar* ext buf) 


const float epsilon =FLT EPSILON * 2; 
const double * weights =епѕепр1е- > деб subtree weights ()-»data.db; 
int n -node-»sample count; // 本 节点 的 样本 数 
// 有 第 vi 个 特征 值 的 样本 数 , 即 去 掉 属 性 缺失 样本 
int nl -node-»get num valid(vi); 
cv::AutoBuffer«uchar» inn buf; 
if(! ext buf) 
inn buf.allocate (п * (3* sizeof (int)+sizeof(float))); 
uchar* ext buf - ext buf ? ext buf : (uchar* )inn buf; 
float* values buf = (float * )ext buf; 
int* sorted indices buf = (int * ) (values buf +n); 
int* sample indices buf -sorted indices buf *n; 
const float* values -0; 
const int* sorted indices -0; 
// 对 样本 按照 第 vi 个 特征 的 特征 值 进行 排序 
data-»get ord var data( node, vi, values buf, sorted indices buf, &values, 
&sorted indices, sample indices buf ); 
int* responses buf -sorted indices buf *n; 
const int* responses -data-»get class labels( node, responses buf); 
const double * rcw0 =weights +n; 
double lcw[2] = (0,0), rcw[2]; 
int i, best i =-1; 
double best val -init quality; 
int boost type -ensemble-»get params().boost type; 
int split criteria -ensemble-»get params().split criteria; 
rcw[0] =rcw0[0]; rcw[1] =rcw0[1]; 
for(i-nl;i <п; i++) 
{ 
int idx =sorted indices[i]; 


double w =weights [idx]; 


rcw[responses[idx]] 一 





) 

if( split criteria !=CvBoost::GINI && split criteria !=CvBoost::MISCLASS ) 
split criteria =boost_type ==CvBoost::DISCRETE ? CvBoost::MISCLASS : 
CvBoost::GINI; 
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// 如 果 使 用 Gini 系数 作为 分 裂 的 度量 标准 


if(split criteria ==CvBoost::GINI ) 


{ 


double L =0, R =rcw[0] *rcw[1]; 
double 1sum2 =0, rsum2 =rcw[0] * rcw[0] +rcw[1] * rcw[1]; 
for(i=0; 1<п1-1; i++) 
t 
// 下 面 的 计算 与 CART 基本 相同 ,只 是 所 有 样本 都 带 上 了 权重 
int idx =sorted_indices[i]; 
// w 为 第 i 个 样本 的 权重 ,w2 为 权重 的 平方 
double w =weights [idx], w2 =w* w; 
double lv, rv; 
idx =responses [idx]; 
L +=w; R-=w7 
lv =lew[idx]; rv =rcw[idx]; 
lsum2 +=2* lv * w +w2; 
rsum2 --2* rv* w -w2; 
lcw[idx] =lv +w; rcw[idx] =rv -w; 


if ( values[i] +epsilon <values[i+1] ) 


{ 
// 计算 带 权重 的 Gini 系数 值 
double val = (1sum2 * R + rsum2 * L) / (L * В); 
if ( best val <val ) // 寻找 Gini 系数 最 大 值 
{ 
best_val =val; 
best_i =i; 
} 
} 
} 
} 
else // 如 果 采 用 误 分 类 指标 


{ 


for( i =0; і <п1 –1; i++) 
{ 
int idx =sorted_indices [i]; 


double w =weights [idx]; // 88 工 个 样本 的 权重 
idx =responses [idx]; 

lew[idx] +=w; // 左 子 树 加 上 该 权重 
rcw[idx] --w; // 右 子 树 减 去 该 权重 


if( values[i] *epsilon <values[i+1] ) 

{ 
// 计算 带 权重 的 误 分 类 指标 
double val =1cw[0] +rcw[1], val2 =lcw[1] *rcw[0]; 
val =MAX (val, val2); 


if (best_val <val ) // 寻找 误 分 类 指标 的 最 大 值 
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best_val =val; 
best_i =i; 


} 

// 生成 最 佳 分 裂 

CvDTreeSplit* split =0; 

if( best i >=0) 

{ 
split =_split ? split : data->new split ord( 0, 0.0f, 0, 0, 0.07); 
split->var_idx =vi; 
split->ord.c = (values [резе і] *values[best і+1]) * 0.5f; 
split->ord.split_point =best_i; 
split-»inversed -0; 
split->quality = (float)best val; 

) 

return split; 


) 


函数 find. split ord. reg 为 回归 树 的 数值 型 变量 寻找 最 佳 分 裂 阔 值 ,计算 回归 误差 时 考 
虑 了 样本 权重 ,其 他 和 标准 决策 树 相 同 。 实 现代 码 如 下 : 


CvDTreeSplit * CvBoostTree::find split ord reg( CvDTreeNode * node, int vi, 
float init quality, CvDTreeSplit* split, uchar* ext buf) 
t 
const float epsilon =FLT_EPSILON * 2; 
const double * weights -ensemble-»get subtree weights ()-»data.db; 
int n =поде- > sample count; 
int nl -node-»get num valid(vi); 
cv::AutoBuffer«uchar» inn buf; 
if(! ext buf ) 
inn buf.allocate(2* n* (sizeof(int)-*sizeof(float))); 
uchar* ext buf = ext buf ? ext buf : (uchar* )inn buf; 
float* values buf - (float * )ext buf; 
int* indices buf = (int * ) (values buf +n); 
int* sample indices buf -indices buf +n; 
const float* values =0; 
const int* indices -0; 
data-»get ord var data( node, vi, values buf, indices buf, &values, &indices, 
sample indices buf ); 
float* responses buf = (float * ) (indices buf +n); 
const float* responses -data-»get ord responses( node, responses buf, 
sample indices buf ); 
int i, best i =-1; 
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double L =0, R=weights[n]; 
double best val =init quality, lsum =0, rsum =node->value* R; 
// 处 理 属 性 缺失 问题 
for( і =п1; i <n; i++) 
{ 
int idx -indices[i]; 
double w =weights [idx]; 
rsum --responses [idx] * w; 
R--w; 
} 
// 寻找 最 佳 分 裂 
Ғог(і =0; і <п1 -1; i++) 
{ 
int idx =indices[i]; 
double w =weights [idx]; // 第 工 个 样本 的 权重 
double t =responses [idx] * w; 
L*-W;R--w; 
lsum +=t; rsum --t; 


if( values[i] *epsilon <values[i+1] ) 


t 
// 计算 带 权重 的 回归 误差 
double val = (1sum * 1sum * К + rsum * rsum * L) / (L * R); 
if ( best val <val ) // 寻找 最 大 值 
{ 
best_val =val; 
best_i =i; 
} 
} 


} 

CvDTreeSplit* split =0; 

if( best i >=0) 

{ 
split =_split ? split : data->new split ord( 0, 0.0f, 0, 0, 0.0f ); 
split-»var idx =vi; 
split-»ord.c = (values[best i] *values[best і+1]) * 0.5f; 
split-»ord.split point -best i; 
split-»inversed -0; 
split-»quality - (float)best val; 

} 

return split; 

) 


函数 сас node. value 计算 叶子 节点 的 值 , 用 于 决策 树 的 输出 ,也 就 是 各 种 弱 分 类 器 的 


输出 值 。 对 分 类 树 和 回归 树 两 种 情况 分 别 做 了 处 理 , 输 出 值 按照 13. 5 节 的 公式 计算 。 代 码 
如 下 : 





А 
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void CvBoostTree::calc node value( CvDTreeNode * node ) 
{ 
int i, n-node-»sample count; 
const double * weights =ensemble->get_weights()->data.db; 
cv::AutoBuffer« uchar» inn buf (п * (sizeof (int) *(data-»is classifier ? sizeof 
(int) : 
sizeof (int) +sizeof (float)))); 
int * labels buf = (int * ) (uchar * ) inn buf; 
const int* labels -data-»get cv labels (node, labels buf); 
double * subtree weights —-ensemble-»get subtree weights ()-»data.db; 
double rcw[2] = (0,0); 
int boost type -ensemble-»get params().boost type; 
// 如 果 是 分 类 树 
if(data-»is classifier) 
{ 
int* responses buf -labels buf +n; 
const int* responses -data-»get class labels(node, responses buf); 
intm-data-»get num classes(); 
int* cls count =data->counts->data.i; 
for( int k =0; k <m; k++) 
cls_count [k] =0; 
// 在 这 里 累加 各 个 类 所 有 样本 的 权重 和 
for(i=0; i <n; i++) 


{ 


int idx =labels[i]; // 第 工 个 样本 的 类 别 标签 
double w =weights [idx]; // 第 工 类 的 权重 

int r =_responses [i]; // 88 工 个 样本 的 真实 响应 
rcw[r] +=w; // 第 类 样本 的 权重 累加 
cls count[r]++; // 第 工 类 的 样本 数 累 加 


subtree weights[i] =w; 
} 
node->class_idx =rcw[1] >rcw[0];// 节点 类 型 值 
// 对 于 离散 型 adaBoost, 输 出 值 为 -1 和 +1 
if( boost type ==CvBoost::DISCRETE ) 
{ 
// 节点 的 输出 值 从 {0,1} 转 换 为 {-1,1} 
node->value =node->class_idx* 2-1; 
} 
else // 对 于 实数 型 AdaBoost 
{ 
// 在 这 里 样本 带 有 权重 , 正 样本 权重 和 比 上 总 权重 和 
// 计算 p(x) , 即 属于 正 样本 的 概率 
double p=rcw[1]/(rcw[0] *rcw[1]); 
assert( boost type ==CvBoost::REAL ); 


// 计算 去 1n p / Q- pon 
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node->value =0.5* log ratio(p); 


else 
{ // 对 于 Logit 和 Gentle 型 AdaBoost, 决 策 树 是 回归 树 
// 节点 的 值 为 样本 标签 的 均值 ,节点 的 风险 值 为 均 方 误差 
double sum =0, sum2 =0, iw; 
float* values buf = (float * ) (labels buf +n); 
int* sample indices buf = (int * ) (values buf +n); 
const float* values -data-»get ord responses (node, values buf, 
sample indices buf); 
// 累加 所 有 样本 的 误差 
for(i=0; i<n; i++) 
f 
int idx -labels[i]; 
double w =weights [idx]; 
double t -values[i]; 


rcw[0] +=м; // 样本 权重 累加 和 
subtree weights[i] =w; 
sum +=t* w; // 样本 响应 值 带 权重 的 累加 和 


Sum2 +=t * t * w; 
} 
iw =1./rew[0]; 
node- >value -sum* iw; // 节点 值 为 样本 均值 
поде- >node_risk =sum2 - (sum * iw) * sum; 
node-»node risk * -n* iw* n* iw; 
) 
subtree weights[n] =rew[0]; 


subtree weights[n*1] -rcw[1]; 


13.8.3 39772 88 


强 分 类 器 的 实现 是 AdaBoost $E 1X B] Ez. X E їн, 4) Wr I A A PM ЖЕ О ЭС Ba. ВА 
数 train 实现 AdaBoost 的 训练 算法 。 代 码 如 下 : 


bool CvBoost::train(const CvMat * train data, int tflag, const CvMat * 
.responses, 
const CvMat* var idx, const CvMat* sample idx, const CvMat* var type, 


const CvMat * missing mask, CvBoostParams params, bool update ) 


bool ok =false; 

CvMemStorage * storage =0; 

CV ЕОМСМАМЕ ( "CvBoost::train" ); 
. BEGIN ; 


inti; 





А 


第 13 章 “Boosting 算法 (307 





set params( _params ); 
cvReleaseMat( &active vars ); 
cvReleaseMat( &active vars abs ); 
if( ! update || !data ) 
{ 
clear (); 
data =new CvDTreeTrainData( train data, tflag, responses, var idx, 
.Sample idx, var type, missing mask, params, true, true ) 7 
if(data-»get num classes() !-2) 
CV ERROR( CV StsNotImplemented, 
"Boosted trees can only be used for 2- class classification." ); 
CV CALL( storage -cvCreateMemStorage() ); 
weak =cvCreateSeq( 0, sizeof (CvSeq), sizeof (CvBoostTree* ), storage ); 
storage -0; 
) 
else 
t 
data-»set data( train data, tflag, responses, var idx, 
.Sample idx, var type, missing mask, params, true, true, true ); 
) 
if ( ( params.boost type ==LOGIT) || ( params.boost type ==GENTLE) ) 
data-»do responses copy(); 
// 以 下 是 AdaBoost 的 主体 流程 。 首 先 ,初始 化 样本 权重 ,如 果 传 人 参数 为 0， 
// update_weights 将 初始 化 所 有 样本 的 权重 
update weights( 0 ); 
// 循 环 训练 每 一 个 弱 分 类 器 ,weak_count 是 想 要 训练 的 弱 分 类 器 的 个 数 
for( i =0; i«params.weak count; i++) 
{ 
// 先 分 配 一 个 CvBoostTree 
CvBoostTree * tree =new CvBoostTree; 
// 训练 一 个 弱 分 类 器 ,调用 cvBoostTree 的 train 函数 ,subsample mask 
// 为 样本 采样 掩 码 数组 ,这 是 核心 的 一 步 
if( !tree->train( data, subsample mask, this ) ) 
{ 
// 如 果 没 有 训练 出 弱 分 类 器 , 则 释放 掉 当 前 的 弱 分 类 器 空间 ,进入 下 一 
// 次 循环 


delete tree; 


continue; 
} 
cvSeqPush( weak, &tree ); // 将 该 弱 分 类 器 放 和 人 弱 分 类 器 数组 中 
update weights ( tree ); // 更 新 样本 权重 ,这 是 核心 的 一 步 
trim weights () 7 // 按照 权重 对 样本 进行 削减 


// 如 果 已 经 没有 活跃 样本 的 ,退出 循环 ,训练 终止 
if ( cvCountNonZero (subsample mask) ==0 ) 


break; 
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} 


} 

if (weak->total > 0) 

{ 
get active vars(); 
data-»is classifier -true; 
data-»free train data(); 
ok -true; 

) 

else 
clear(); 

_END ; 


return ok; 


接 下 来 看 更 新 样本 权重 的 过 程 ,对 于 不 同 AdaBoost 算法 执行 不 同 的 权重 更 新 策略 。 
更 新 样本 权重 由 函数 update weights_impl 实现 。 这 个 函数 首先 区 分 是 初始 化 样本 权重 还 
是 在 训练 过 程 中 更 新 样本 权重 ,如 果 传 和 人 的 tree 为 NULL, 则 初始 化 样本 权重 。 如 果 是 在 
训练 过 程 中 更 新 样本 权重 , 则 分 4 种 类 型 的 AdaBoost 进行 更 新 。 计 算 弱 分 类 器 错误 率 时 
需要 用 到 当前 弱 分 类 器 对 所 有 样本 的 预测 结果 。 对 于 参与 本 轮 弱 分 类 器 训练 的 样本 ,训练 
时 给 出 了 预测 值 , 没 参与 训练 的 样本 要 用 本 弱 分 类 器 预测 一 遍 , 得 到 输出 值 。 实 现代 码 


如 下 : 


void CvBoost::update weights impl( CvBoostTree* tree, double initial_weights[2] ) 


{ 


CV_FUNCNAME ( "CvBoost::update_weights_impl" ); 
. BEGIN ; 
int i, n-data-»sample count; 
double sumw =0.; 
int step =0; 
float* fdata -0; 
int * sample idx buf; 
const int* sample idx =0; 
cv::AutoBuffer«uchar» inn buf; 
size t buf size = (params.boost type ==LOGIT) || (params.boost type ==GENTLE) 
? (size t) (data-» sample count) * sizeof (int) : 0; 
if( !tree) 
.buf size *-n* sizeof (int); 
else 
t 
if(have subsample ) 
buf size +=data->get length subbuf () * (sizeof (float)+sizeof (uchar)); 
) 
inn buf.allocate( buf size); 
uchar* cur buf pos - (uchar * )inn buf; 


if ( (params.boost type ==LOGIT) || (params.boost type ==GENTLE) ) 
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step =CV_IS MAT CONT (data- >responses copy->type) ?1: 
data-»responses copy->step / CV ELEM SIZE (data->responses copy->type); 
fdata =data->responses_copy->data.fl; 
sample idx buf = (int * )cur buf pos; 
cur buf pos = (uchar * ) (sample idx buf +data->sample count); 
sample idx -data-»get sample indices( data-»data root, sample idx buf ); 
) 
CvMat* dtree data buf =data->buf; 
size t length buf row -data-»get length subbuf(); 
if( !tree ) // 如 果 tree 为 NULL, 表 示 要 初始 化 样本 权重 
{ 
int* class labels buf = (int * )cur buf pos; 
cur buf pos = (uchar* ) (class labels buf +n); 
const int* class labels -data-» get class labels(data- > data root, class 
labels buf); 
// 对 于 Logitboost 和 Gentle AdaBoost 每 一 棵 决策 树 是 回归 树 ,需要 将 类 别 
// 标签 转换 成 浮 点 数 
double w0 =1./n; 
double p[2] ={ initial_weights[0], initial_weights[1] }; 
cvReleaseMat ( &orig response ); 
cvReleaseMat ( &sum_response ); 
cvReleaseMat ( &меак еуа1 ); 
cvReleaseMat ( &subsample_mask ); 
cvReleaseMat ( &weights ); 
cvReleaseMat ( &subtree weights ); 
CV_CALL( orig_response =cvCreateMat ( 1, п, CV_32S )); 
CV CALL( weak eval =cvCreateMat ( 1, n, CV 64F )); 
CV CALL( subsample mask =cvCreateMat ( 1, n, CV 8U )); 
CV CALL( weights =cvCreateMat (1, n, CV 64F )); 
CV CALL( subtree weights =cvCreateMat (1, n +2, CV 64F )); 
// 如 果 考 虑 类 先 验 概率 
if(data-»have priors ) 
{ 
int cl =07 
for( i =0; i <n; i++) 
cl +=с1аѕѕ Іаре15 [1]; 
p[0] =data->priors->data.db[0] * (cl «n ? 1./ (n -с1) : 0.); 
р[1] =data->priors->data.db[1] * (cl >0 ? 1./с1 : 0.); 
р[0] /=р[0] *p[11; 
р[1] =1. -р[0]; 
} 
if (data->is buf 16u) 
t 
unsigned short* labels = (unsigned short * ) (dtree data buf-»data.s + 
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data-»data root-»buf idx * length buf row + data- > data root-» 
offset * 
(data-»work var count-1) * data-» sample count); 
for( i =0; i <n; i++) 
{ 
orig_response->data.i[i] =class_labels[i] * 2-1; 
subsample mask-»data.ptr[i] = (uchar) 1; 
weights-»data.db[i] =w0* p[class labels[i]]; 
labels[i] = (unsigned short)i; 


} 
е1зе 


{ 
int* labels -dtree data buf->data.i + 


data-»data root-»buf idx* length buf гом + 
data-»data root-»offset * 
(data-»work var count-1) * data-» sample count; 
for(i=0; i <n; i++) 
{ 
orig_response->data.i[i] =class_labels[i] * 2-1; 
subsample mask-»data.ptr[i] = (uchar)1; 
weights-»data.db[i] =w0* p[class labels[i]]; 


labels[i] =i; 
) 
} 
if(params.boost type ==LOGIT ) 
{ 


CV_CALL( sum response =cvCreateMat (1, n, CV_64F )); 
for( i =0; i <n; i++) 
{ 
sum response-»data.db[i] =0; 
fdata[sample idx[i] * step] =orig_response->data.i[i] »0 ? 2.f : -2.f; 
} 
// 此 时 是 回归 问题 而 不 是 分 类 问题 
data-»is classifier =false; 
1 
else if ( params.boost type ==GENTLE ) 
{ 
for( i =0; i <n; i++) 
fdata[sample_idx[i] * step] = (float)orig_response->data.i[i]; 


data->is_classifier =false; 


} 
else 


{ ”// 这 里 是 真正 更 新 样本 的 权重 
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// 对 于 这 种 情况 ,所 有 参与 最 近 一 个 弱 分 类 器 训练 的 样本 我 们 知道 它们 的 输 
// 出 值 , 对 其 他 样本 要 计算 输出 值 
if ( have subsample ) 
{ 
float * values = (float * )cur buf pos; 
cur buf pos = (uchar * ) (values *data-»get length subbuf()); 
uchar* missing -cur buf pos; 
cur buf pos -missing *data-»get length subbuf() * 
(size t)CV ELEM SIZE (data-»buf-»type); 
CvMat sample, mask; 
// 将 子 集 采 样 的 掩 码 置 反 
суХог5( subsample mask, cvScalar(1.), subsample mask ); 
data->get_vectors( subsample mask, values, missing, 0); 
_sample =cvMat ( 1, data- >var count, CV_32F ); 
.mask =cvMat ( 1, data->var_count, CV_8U ); 
// 对 于 所 有 未 采样 的 样本 ,用 决策 树 进 行 预测 
for( i =0; i <n; i++) 
if ( subsample_mask->data.ptr[i] ) 
{ 
_sample.data.fl =values; 
_mask.data.ptr =missing; 
values +=_sample.cols; 
missing +=_mask.cols; 
weak_eval->data.db[i] =tree->predict( &_sample, & mask, 


true )->value; 


} 
// 对 各 种 类 型 的 Boosting 分 别 更 新 样本 权重 
if( params.boost_type ==DISCRETE ) 
{ 
// 离散 型 AdaBoost, 注 意 这 里 和 13.1 节 介绍 的 公式 稍 有 不 同 


// 这 里 的 c=1n( G-err)/err) ,而 不 是 去 IntGl-errjVerr) 


// 可 以 证 明 , 二 者 是 等 价 的 
double С, егг=0.; 
double scale [] ={ 1., 0. ); 
// 先 计 算 样 本 在 弱 分 类 器 上 的 带 权 重 累计 误差 和 e 
for( i =0; i <n; i++) 
{ 
double м -weights-»data.db[i]; // 第 i 个 样本 的 权重 
Sumw +=w; // 权重 累加 
// 错误 累加 , 即 比较 弱 分 类 器 输出 响应 是 否 和 期 望 相等 
err +=w* (weak eval-»data.db[i] !=orig_response->data.i[i]); 
} 


if( sunw !=0) 


А 
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err /=sumw; // 对 错误 率 做 归 一 化 
C =err =-1og ratio(err ); // 弱 分 类 器 的 权重 
scale[1] =ехр(егг); // 用 于 更 新 样本 权重 
sumw =0; // 样 本 权重 之 和 ,用 于 权重 归 一 化 
// 更 新 每 个 样本 的 权重 


for( i =0; i <n; i++) 
t 
double м =weights->data.db[i] * 
scale[weak_eval->data.db[i] !=orig_response->data.i[i]]; 
Sumw +=w; 
weights-»data.db[i] =w; 
} 
// 弱 分 类 器 按照 权重 缩放 ,实际 上 就 是 把 权重 给 弱 分 类 器 
tree->scale( C ); 
) 
else if( params.boost type ==REAL ) 
t 
// 实数 型 adaBoost, 按 照 13.5.2 节 的 公式 计算 
// 计算 每 个 样本 的 -ys (x) 
for(i=0; i <n; i++) 
weak_eval->data.db[i] *=-orig_response->data.i[i]; 
// 计算 所 有 样本 的 exp (- y; f (x:)) 
cvExp( weak eval, weak_eval ); 
// 更 新 每 个 样本 的 权重 
for( i =0; i <n; i++) 
{ 
// 计算 м. = мехр (- y: fa Q0) 
double w =weights->data.db[i] * weak_eval->data.db[i]; 
sumw +=w; // 权重 累加 ,用 于 归 一 化 
weights->data.db[i] =w7 


} 

else if ( params.boost_type ==LOGIT ) 

{ 
// LogitBoost 型 ,按照 13.5.3 节 的 公式 计算 
const double lb weight thresh =FLT EPSILON; 


const double lb z max -10.; // z 的 最 大 值 
// 对 所 有 样本 计算 强 分 类 器 输出 


for( i =0; i <n; i++) 
f 
double s =sum_response->data.db[i] +0.5* weak eval-»data.db[i]; 
sum response-»data.db[i] =s; // 累加 和 
weak eval->data.db[i] --2* s; // -2F(X) 
} 
суЕхр (weak eval, weak eval ); // 计算 exp (-2F (x) ) 





for( i =0; і <n; i++) 
š 


// 对 每 个 样本 , 先 计算 p= mY 


double p =1./ (1. +weak_eval->data.db[i]); 
// 再 计算 м=р (x) (1-p (x; ) ) 

double w =p * (1 -р), 2; 

м =MAX(w, lb_weight_thresh ) 7 
weights->data.db[i] =w; // 更 新 样本 权重 
sumw + 一 W7 // 样本 权重 累加 


; _ G:+1)/2-p (X:) 计算 时 进行 
// 最 后 计算 а-к) (=P (XN) ,计算 时 进行 了 简化 


= yy, -(1+1)/2-p (x) ___1 
юе а p(x)(1-p(x)) р(х) 


if( orig_response->data.i[i] >0) 








{ 

2=1./р; 

fdata[sample idx[i]* step] = (float)MIN(z, lb 2 max); 
} 
е1ѕе 
{ 

cq 2- 

// y,=-1 时 简化 为 sp PUDE TT 

z -1./(1-p); 

fdata[sample idx[i] * step] = (float)-MIN(z, lb 2 max); 
) 


) 
else 
{ 
// Gentle 型 AdaBoost, 计 算 公式 参考 13.5.4 节 
assert ( params.boost_type ==GENTLE ); 
// 对 每 个 样本 计算 -yi 五 (x) 
for( i =0; i <n; i++) 
weak eval-»data.db[i] * =-orig_response->data.i[i]; 
// 计算 exp Co y; f, (ж)) 
cvExp( weak eval, weak eval); 
// 更 新 每 个 样本 的 权重 
for( i =0; i <n; i++) 
{ 
// w. =wi exp ( - Yi f, (x. ) ) 
double м =weights->data.db[i] * weak eval-»data.db[i]; 
weights->data.db[i] =w; // 更 新 权重 
Sumw +=w; // 权重 累加 和 
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} 
// 权重 归 一 化 ,所 有 样本 的 权重 除 以 权重 和 sumw, 这 对 4 种 类 型 的 AdaBoost 
// 是 一 样 的 
if( sumw >FLT EPSILON ) 
{ 
sumw =1./sumw; 
for(i =0; i«n; ++i) // 对 每 个 样本 的 权 值 进行 归 一 化 
weights->data.db[i] * =sumw; 
} 
_END ; 


函数 predict 完成 强 分 类 器 的 预测 , 它 计算 每 个 弱 分 类 器 的 输出 值 然 后 累加 求 和 。 代 码 
ШЇ: 


float CvBoost::predict( const CvMat * sample, const CvMat* missing, 


CvMat* weak responses, CvSlice slice, bool raw mode, bool return sum) const 


float value -- FLT MAX; 
CvSeqReader reader; 
double sum =07 
int wstep =0; 
const float* sample data; 
if( !weak ) 
CV Error( CV StsError, "The boosted tree ensemble has not been trained yet" ); 
if( !CV IS MAT( sample) || CV MAT TYPE( sample-»type) !-CV 32FCl || 
( sample-»cols !=1 && sample-»rows !=1) || 
(_sample->cols +_sample->rows -1 !=data->var_all && !raw mode) || 
(active_vars && sample-»cols + sample-»rows -1 !-active vars-»cols && 
raw mode) ) 
CV Error( СУ StsBadArg, 
"the input sample must be 1d floating- point vector with the same " 
"number of elements as the total number of variables ог" 
"as the number of variables used for training" ); 
if( missing) 
{ 
if( !CV IS MAT( missing) || !CV IS MASK ARR( missing) || 
!CV ARE SIZES EQ( missing, sample) ) 
CV Error( CV StsBadArg, 
"the missing data mask must be 8- bit vector of the same size as input 
sample" ); 
} 
int i, weak_count =cvSliceLength( slice, weak ); // 弱 分 类 器 的 个 数 
if ( weak count >=weak->total ) 


weak count =weak->total; 
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slice.start_index =0; 
} 
if ( weak responses ) 
{ 
if( !CV IS MAT(weak responses) || 
CV МАТ TYPE(weak responses-»type) !-CV 32FCl || 
(weak responses-»cols !=1 && weak responses-»rows !=1) |l 
weak responses-»cols *weak responses-»rows -1 !-weak count ) 
CV Error( CV StsBadArg, 
"The output matrix of weak classifier responses must be valid " 
"floating- point vector of the same number of components as the length of 
input slice" ); 
wstep =CV_IS MAT CONT(weak_responses->type) ?1: 
weak_responses- >step/sizeof (float); 
} 
int var count -active vars-»cols; 
const int* vtype -data-»var type-»data.i; 
const int* cmap -data-»cat map-»data.i; 
const int* cofs -data-»cat ofs-»data.i; 
cv::Mat sample = sample; 
cv::Mat missing; 
if(! missing) 
missing = missing; 
// 对 输入 向 量 进行 预 处 理 
if( !raw_mode ) 
{ 
int sstep, mstep =0; 
const float * src_sample; 
const uchar* src mask =0; 
float* dst sample; 
uchar* dst mask; 
const int* vidx active vars-»data.i; 
const int* vidx abs -active vars abs-»data.i; 


bool have mask = missing !=0; 


sample =cv::Mat (1, var count, CV 32ЕС1); 

missing =cv::Mat(1, var count, CV 80С1); 

dst sample -sample.ptr«float» (); 

dst mask =missing.ptr<uchar> (); 

src sample = sample-»data.fl; 

sstep -CV IS MAT CONT( sample-»type) ? 1 : 
 sample-»step/sizeof(src sample[0]); 

if( missing) 

t 


src mask = missing-»data.ptr; 
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mstep =CV_IS MAT CONT( missing->type) ? 1: missing->step; 


} 
for( i =0; i<var_count; i++) 
t 
int idx =vidx[i], idx abs =vidx abs[i]; 
float val -src sample[idx abs * sstep]; 
int ci -vtype[idx]; 
uchar m src mask ? src mask[idx abs * mstep] : (uchar)0; 
if(ci»-0) 
t 
int a-cofs[ci], b = (ci*1»-data-»cat ofs-»cols) ? 
data-»cat map-»cols : cofs[ci*1], 
c-a; 
int ival -cvRound (val); 
if ( (ival !-val) && (!m) ) 
CV Error( СУ StsBadArg, 
"one of input categorical variable is not an integer" ); 
while(a<b) 
{ 
c= (a +b) >>1; 
if ( ival <cmap[c] ) 
b =c; 
else if ( ival >cmap[c] ) 
а=с+1; 
е1зе 
break; 
) 
if(c«0 || ival !=cmap[c] ) 
{ 
m-1; 
have mask -true; 
) 
else 
{ 
val = (float) (c -cofs[ci]); 
1 
} 
dst_sample[i] =уа1; 
dst mask[i] =m; 
} 


if( !have_mask ) 


missing.release (); 


else 
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if( !CV_IS MAT CONT( sample->type & ( missing ? missing->type : -1)) ) 
CV_Error ( CV_StsBadArg, "In raw mode the input vectors must be 
continuous"); 
) 
cvStartReadSeq( weak, &reader ); 
cvSetSeqReaderPos( &reader, slice.start_index ); 
sample data -sample.ptr« float» (); 
if( !have active cat vars && missing.empty() && !меак responses ) 
{ 
// 下 面 是 真正 的 预测 过 程 ,循环 用 每 个 弱 分 类 器 进行 预测 
for( i =0; i<weak_count; i++) 


{ 


CvBoostTree * wtree; // 弱 分 类 器 指针 

const CvDTreeNode * node; // 弱 分 类 器 预测 时 的 返回 值 

CV READ SEQ ELEM( wtree, reader); // 读 取 弱 分 类 器 

node -wtree-»get root(); // 定位 到 弱 分 类 器 决策 树 的 根 节点 
while( node->left ) // 决策 树 预 测 ,一 直 走 ,直到 遇 到 叶子 节点 


{ 
CvDTreeSplit * split =node->split; 
int vi =split->condensed_idx; 
float val -sample data[vi]; 
int dir =val <=split->ord.c ? -1 : 1; 
if ( split->inversed ) 
dir =-dir; 
node =dir <0 ? node->left : node->right; 


} 
sum +=node->value; // 弱 分 类 器 输出 值 累 加 


} 
е1зе 
{ 
const int* avars -active vars->data.i; 
const uchar* m = !missing.empty() ? missing.ptr«uchar» () : 0; 
// full- featured version 
for( і =0; i <меаК count; i++) 
{ 
CvBoostTree * wtree; 
const CvDTreeNode * node; 
CV READ SEQ ELEM( wtree, reader ); 
node -wtree-»get root(); 
while( node-»left ) 
{ 
const CvDTreeSplit * split =node->split; 
int dir =0; 
for(; !dir && split !=0; split —split-»next ) 
{ 


int vi =split->condensed idx; 
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int ci =vtype[avars[vi]]; 
float val =sample_data[vi]; 
if(m&& m[vi] ) 

continue; 
if(ci«0) // ordered 

dir -val«-split-»ord.c?-1:1; 
else // categorical 
{ 

int c =cvRound (val); 

dir -CV DTREE CAT DIR(c, split-> subset); 
) 
if( split-»inversed ) 

dir --dir; 


if( tdir ) 


int diff =node->right->sample_count -node-»left-» sample count; 
dir-diff«0?-1:1; 
) 
node =dir «0 ? node-» left : node-» right; 
} 
if( weak responses ) 
weak responses- »data.fl[i* wstep] = (f£loat)node-» value; 


sum += node- » value; // 弱 分 类 器 输出 值 累 加 

) 
) 
if(return sum) // 如 果 是 ,直接 返回 弱 分 类 器 累加 值 

value = (float) sum; 
else 
{ // 如 果 是 ,返回 类 别 号 

int cls_idx =sum >=0; // 如 果 强 分 类 器 的 预测 值 大 于 0, 返 回 1; 和 否则 返回 0 


if ( raw_mode ) 
value = (float)cls_idx; 
else 
value = (float) cmap[cofs [vtype[data->var_count]] +cls_idx]; 


} 


return value; 


13.9 应 用 一 一 目标 检测 


AdaBoost 算法 在 模式 识别 中 最 成 功 的 应 用 之 一 是 机 器 视觉 里 的 目标 检测 问题 ,如 人 脸 
检测 和 行人 检测 。 在 深度 卷 积 神经 网 络 用 于 此 问题 之 前 ,AdaBoost 算法 在 视觉 目标 检测 领 
域 的 实际 应 用 上 一 直 处 于 主导 地 位 。 在 第 1 章 中 简单 介绍 了 采用 滑动 窗口 技术 进行 人 脸 检 
测 的 基本 原理 ,本 节 详 细 介 绍 如 何 用 级 联 AdaBoost 分 类 器 实现 目标 检测 。 
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13.9.1 VJ 框架 的 原理 


在 2001 年 Viola 和 Jones 设计 了 一 种 人 脸 检测 算法 四 。 他 们 使 用 简单 的 Haar 特征 和 
级 联 AdaBoost 分 类 器 构造 检测 器 ,检测 速度 较 之 前 的 方法 有 2 个 数量 级 的 提高 ,并 且 有 很 
高 的 精度 ,人 们 称 这 种 方法 为 VJ HEAR. VJ 框架 是 人 脸 检测 历史 上 有 里 程 碑 意 义 的 一 个 成 
FR BE T AdaBoost 目标 检测 框架 的 基础 。 

人 脸 检 测 的 评价 指标 包括 检测 率 和 误 报 率 。 检 测 率 定 义 为 图 中 的 人 脸 被 算法 检测 出 来 
的 比例 。 误 报 率 定义 为 误 检 的 数量 与 分 类 器 扫描 的 非 人 脸 窗 口 数量 的 比值 。 算 法 要 在 检测 
率 和 误 报 率 之 间 做 平衡 ,理想 的 情况 是 有 高 检测 率 和 低 误 报 率 。 

用 级 联 AdaBoost 分 类 器 进行 目标 检测 的 思想 : 用 多 个 AdaBoost 分 类 器 合作 完成 对 候 
选 框 的 分 类 ,这 些 分 类 器 组 成 一 个 流水 线 , 对 滑动 窗口 中 的 候选 框图 像 进行 判定 ,确定 它 是 
人 脸 还 是 非 人 脸 。 在 这 些 AdaBoost 分 类 器 中 ,前 面 的 分 类 器 很 简单 ,包含 的 弱 分 类 器 很 
少 ,可 以 快速 排除 掉 大 量 非 人 脸 窗 口 ,但 也 可 能 会 把 一 些 不 是 人 脸 的 图 像 判 定 为 人 脸 ШЖ 
一 个 候选 框 通过 了 第 一 级 分 类 器 的 筛选 ( 即 被 它 判定 为 人 脸 ), 则 送 入 下 一 级 分 类 器 中 进行 
判定 ,和 否则 丢弃 掉 , 以 此 类 推 。 如 果 一 个 检测 窗口 通过 了 所 有 的 分 类 器 , 则 认为 是 人 脸 ,否则 
是 非 人 脸 。 

这 种 思想 的 精髓 在 于 用 简单 的 强 分 类 器 先 排除 掉 大 量 的 非 人 脸 窗 口 , 使 得 最 终 能 通过 
所 有 级 强 分 类 器 的 样本 数 很 少 。 这 样 做 的 依据 是 在 待 检测 图 像 中 , 绝 大 部 分 都 不 是 人 脸 而 
是 背景 , 即 人 脸 是 一 个 稀 朴 事件 ,如 果 能 快速 地 把 非 人 脸 样本 排除 掉 , 则 能 大 大 提高 目标 检 
测 的 效率 。 

出 于 性 能 的 考虑 , 弱 分 类 器 使 用 了 简单 的 Haar 特征 。 这 种 特征 源 自 于 小 波 分 析 中 的 
Haar 小 波 变换 , Haar 小 波 是 最 简单 的 小 波 函 数 ,用 于 对 信号 进行 均值 ,细节 分 解 。 这 里 的 
Haar 特征 定义 为 图 像 中 相 邻 矩形 区 域 像素 之 和 的 差 值 。 图 13.2 是 基本 Haar 特征 的 示 























13.2 基本 Haar 特征 的 示意 图 





Haar 特征 是 白色 矩形 框 内 的 像素 值 之 和 , 减 去 黑色 区 域内 的 像素 值 之 和 。 以 图 像 中 第 
一 个 特征 为 例 , 它 的 计算 方法 如 下 : 首先 计算 左边 白色 矩形 区 域 里 所 有 像素 值 的 和 , 接 下 来 
计算 右边 黑色 矩形 区 域内 所 有 像素 的 和 ,最 后 得 到 的 Haar 特征 值 为 左边 的 和 减 右边 的 和 。 

这 种 特征 捕捉 图 像 的 边缘 、 变 化 信息 ,各 种 特征 描述 在 各 个 方向 上 的 图 像 变化 信息 。 人 
脸 的 五 官 等 区 域 有 各 自 的 亮度 信息 ,很 符合 Haar 特征 的 特点 。 

为 了 实现 快速 计算 ,使 用 了 一 种 称 为 积分 图 的 机 制 。 通 过 它 可 以 快速 计算 出 图 像 中 任 
何 一 个 矩形 区 域 的 像素 之 和 ,从 而 计算 出 各 种 类 型 的 Haar 特征 。 假 设 有 一 张 图 像 , 其 第 i 
ITR j 列 处 的 像素 值 为 zy ,积分 图 定义 为 
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即 图 像 在 任何 一 点 处 的 左上 方 元 素 之 和 。 在 构造 出 积分 图 之 后 ,借助 于 它 可 以 快速 计算 出 
任何 一 个 矩形 区 域内 的 像素 之 和 。 以 图 13.3 中 的 黑色 和 矩形 框 为 例 。 











图 13.3 借助 积分 图 计算 任何 一 个 矩形 框 的 像素 值 之 和 


在 图 13. 3 中 ,要 计算 黑色 和 矩形 框 内 的 像素 值 之 和 ,计算 公式 为 
Su — Siria — Sigiy T Sis, 

之 所 以 这 样 ,是 因为 黑色 区 域内 的 像素 值 之 和 等 于 这 4 个 矩形 框 内 的 像素 值 之 和 , 减 去 
上 面 两 个 矩形 框 的 像素 值 之 和 ,再 减 去 左边 两 个 矩形 框 的 像素 值 之 和 ,这 样 做 的 话 , 左 上 角 
的 矩形 框 被 减 了 两 次 ,因此 要 加 一 次 回来 。 显 然 ,在 计算 出 任何 一 个 矩形 区 域 的 像素 值 之 和 
后 ,可 以 方 地 的 计算 出 上 面 任何 一 种 Haar 特征 。 

弱 分 类 器 采用 深度 很 小 的 决策 树 ,甚至 只 有 一 个 内 部 节点 。 决 策 树 的 训练 算法 在 之 前 
已 经 介绍 过 了 ,需要 注意 的 是 这 里 的 特征 向 量 是 稀 玻 的 , 即 每 棵 决策 树 只 接受 少量 特征 分 量 
作为 输入 ,根据 它们 来 做 决策 。 

强 分 类 器 和 前 面 讲述 的 是 一 样 的 ,不 同 的 是 加 上 了 一 个 调节 阔 值 : 

F(x) = У) fix) — £ 
Rh Ey PUK Bj fl «ANS PS 88 Н) 38 TE I| £s HP AR d ЖУ NJ SCRI De dft Н з ЖЕ. Ж 
їй at AS | ЖЕ, {6 ЕА {Н.К T аА LY D ЖЕ. Ш at ЕЕ R MU ZA Le AS A 2} Ж 
器 的 训练 。 训 练 时 ,依次 训练 每 一 级 强 分 类 器 。 每 一 级 强 分 类 器 在 训练 时 使 用 所 有 的 人 脸 
样本 作为 正 样本 ,并 用 上 一 级 强 分 类 器 对 负 样 本 图 像 进行 扫描 ,把 找到 的 虚 警 中 被 判定 为 人 
脸 的 区 域 截取 出 来 作为 下 一 级 强 分 分 类 器 的 负 样 本 。 

假设 第 i 级 强 分 类 器 的 检测 率 和 误 报 率 分 别 为 d; 和 f;, 由 于 要 通过 所 有 强 分 类 器 才 被 

判定 为 正 样本 ,因此 ,级 联 分 类 器 的 误 报 率 为 
F=[[ л 
上 式 表明 增加 分 类 器 的 级 数 可 以 降低 误 报 率 。 类 似 地 ,级 联 分 类 器 的 检测 率 为 
D= || z; 
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这 个 式 子 表明 增加 分 类 器 的 级 数 会 降低 检测 率 。 对 于 前 者 ,可 以 理解 为 一 个 负 样 本 被 
每 一 级 分 类 器 都 判定 为 正 样本 的 概率 ;对 于 后 者 ,可 以 理解 为 一 个 正 样本 被 所 有 分 类 器 都 判 
定 为 正 样本 的 概率 。 

在 VJ 算法 问世 之 后 ,出 现 了 各 种 改进 型 的 方案 ?5 。 这 些 方 案 的 改进 主要 在 以 下 几 
个 方面 : 新 的 特征 如 LBP ICF、ACF .其 他 类 型 的 AdaBoost 分 类 器 如 实数 型 和 Gentle W, 
新 的 分 类 器 级 联结 构 如 Soft Cascade, 用 于 解决 多 视角 人 脸 检测 问题 的 金字 塔 级 联 和 树 状 
级 联 。 


13.9.2 ”模型 训练 


利用 OpenCV 提供 的 训练 程序 可 以 很 方便 地 训练 自己 的 检测 器 。 用 орепсу_ 
traincascade 训练 自己 的 模型 需要 经 历 如 下 步骤 。 

COD 准备 正 样本 图 像 。 

(2) 准备 负 样 本 图 像 。 

(3) 生成 正 负 样 本 列表 文件 。 

(4) 生成 . vec 文件 。 

(5) 训练 分 类 器 。 

这 里 的 正 样 本 是 要 检测 的 目标 :如 人 脸 。 所 有 正 样 本 都 要 缩放 到 同样 的 大 小 ,并 且 需 将 
这 些 图 像 放 到 同一 个 目录 下 (如 pos)。 需 要 注意 的 是 , 正 样本 图 像 要 尽量 覆盖 目标 的 各 种 
姿态 .角度 等 ,而 且 要 量 大 。 

负 样 本 是 不 包括 要 检测 的 目标 的 任何 图 像 。 它 的 尺寸 可 以 很 大 ,程序 在 使 用 负 样 本 图 
像 时 会 进行 裁剪 采样 。 为 了 降低 误 报 率 ,通常 需要 大 量 的 负 样 本 图 像 ,而 且 图 像 涵盖 的 范围 
要 广泛 。 同 样 地 ,我 们 也 将 负 样 本 图 像 放 到 同一 个 目录 下 (如 пер). 

在 准备 好 正 负 样 本 图 像 之 后 , 接 下 来 生成 它们 的 描述 文件 。 首 先 , 在 命令 行 中 切换 到 正 
样本 图 像 所 在 的 目录 下 ,输入 如 下 命令 : 





dir/b>posfiles.txt 

这 样 会 在 正 样本 的 目录 下 生成 一 个 posfiles. txt 文件 , 即 正 样本 列表 文件 。 文 件 每 一 行 
为 该 目录 下 的 一 个 图 像 文件 名 ,注意 ,posfiles. txt 这 个 文件 名 也 会 出 现在 这 个 文件 中 ,我们 
需要 把 这 一 行 找到 删 掉 。 在 文件 的 每 一 行 后 面 ,我们 还 需要 加 入 “100 w h”, 其 中 ,w 和 
h 是 正 样本 图 像 的 高 度 和 宽度 ,如 64。 接 下 来 切换 到 负 样 本 的 目录 下 ,输入 命令 : 


dir/b>negfiles.txt 


生成 负 样 本 列表 文件 ,也 要 把 negfiles. txt 这 一 行 删 掉 。 接 下 来 ,用 opencv_createsamples 
程序 生成 样本 描述 文件 。 命 令 如 下 : 


opencv_createsamples.exe - info posfiles.txt - vec pos.vec - num 1024 - w 64 - h 64 
最 后 ,用 opencv_traincascade 程序 进行 训练 : 


opencv_traincascade.exe - data model - vec pos. vec -bg negfiles. txt - numPos 700 - 


numNeg 2100 - featureType HOG -w 64 -h 64 - numStages 20 
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训练 过 程 中 会 在 屏幕 上 输出 训练 信息 ,训练 完成 之 后 会 生成 XML 格式 的 模型 文件 ,之 


后 就 可 以 用 自己 的 模型 进行 目标 检测 。 
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第 14 章 
深度 学 习 概 论 


机 器 学 习 在 经 历 了 多 年 的 发 展 之 后 ,虽然 取得 了 大 的 进展 ,但 对 某 些 复杂 问题 的 处 理 效 
果 还 远 未 达到 实用 的 标准 。 典 型 的 是 语音 识别 和 图 像 识别 ,经 典 的 机 器 学 习 算 法 在 精度 上 
存在 瓶颈 ,无 法 达到 大 规模 实用 的 要 求 。 本 章 介绍 的 深度 学 习 技术 在 这 类 问题 上 取得 了 当 
前 最 好 的 效果 ,并 仍 处 于 高 速 发 展 阶段 ,是 机 器 学 习 目前 最 重要 的 方向 之 一 。 


14.1 机 器 学 习 面 临 的 挑战 


到 目前 为 止 ,本 书 介绍 的 机 器 学 习 算 法 的 输入 都 是 特征 向 量 ,至 于 这 个 向 量 是 什么 以 及 
怎么 构造 ,并 没有 统一 的 答案 。 它 们 需要 根据 具体 问题 的 特点 人 工 设 计 , 同 一 个 机 器 学 习 算 
法 应 用 于 不 同 的 问题 时 ,会 使 用 不 同 的 特征 。 表 14. 1 是 机 器 学 习 算法 用 于 各 种 应 用 问题 时 
所 使 用 的 典型 特征 。 


表 14.1 各 种 应 用 问题 所 使 用 的 典型 特征 




















特 E 应 用 领域 特征 的 含义 
颜色 直方 图 计算 机 视觉 描述 图 像 颜 色 的 概率 分 布 
Haar 特征 计算 机 视觉 描述 图 像 在 水 平和 垂直 方向 的 变化 
HOG 特征 计算 机 视觉 描述 图 像 的 边缘 朝向 和 强度 分 布 
Gabor 特征 计算 机 视觉 描述 图 像 各 个 方向 和 尺度 的 频谱 分 布 
МЕСС 特征 语音 识别 描述 声音 信号 的 频率 特征 
TF-IDF 特征 自然 语言 处 理 描述 单词 在 文档 中 的 概率 分 布 








机 器 学 习 算 法 在 解决 实际 问题 时 分 为 两 步 : 第 一 步 是 特征 提取 ;第 二 步 是 将 特征 向 量 
送 入 机 器 学 习 算 法 中 进行 训练 或 者 预测 。 这 个 过 程 如 图 14. 1 所 示 。 
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14.1 采用 人 工 特征 的 机 器 学 习 算法 处 理 流程 


在 这 种 方案 中 机 器 学 习 算 法 只 用 于 分 类 或 者 回归 等 任务 ,不 负责 特征 的 提取 。 特 征 设 
计 依 靠 人 工 经 验 ,使 用 了 特定 领域 的 知识 。 
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14.1.1 人 工 特征 


虽然 人 工 设 计 的 特征 行 之 有 效 ,在 很 多 具体 问题 上 都 有 成 功 的 应 用 ,但 这 种 做 法 至 少 会 
面临 以 下 几 个 问题 。 

CD 特征 通用 性 差 。 不 同 的 应 用 问题 需要 设计 不 同 的 特征 ,设计 这 些 特 征 高 度 依赖 每 
个 应 用 领域 的 专业 知识 ,并 且 需 要 经 过 反复 试验 来 确保 有 效 性 。 仅 计算 机 视觉 领域 的 图 像 
分 类 ,目标 检测 问题 就 有 很 多 不 同 的 任务 ,需要 为 每 个 任务 都 设计 有 效 的 特征 。 例 如 ,在 人 
脸 检测 中 有 效 的 Haar 特征 用 于 行人 检测 时 效果 较 差 , 针 对 这 个 问题 又 设计 出 HOG 特征 。 

(2) 特征 的 描述 能 力 有 限 。 人 工 设计 的 特征 一 般 模 式 固定 并 且 比 较 简 单 ,特征 的 表达 
能 力 有 限 ,在 复杂 的 应 用 问题 上 会 遇 到 精度 上 的 瓶颈 。 例 如 ,标准 的 Haar 特征 只 能 描述 图 
像 在 水 平和 垂直 方向 的 变化 ;HOG 特征 虽然 能 描述 图 像 梯度 的 朝向 分 布 , 但 不 具有 旋转 不 
变性 ,将 一 个 物体 在 图 像 中 进行 旋转 ,得 到 的 НОС 特征 和 旋转 之 前 完全 不 同 。 特 征 的 表达 
能 力 限 制 了 机 器 学 习 算法 的 精度 上 限 ,容易 导致 过 拟 合 问题 。 

(3) 维 数 灾难 De (Curse of Dimensionality) 。 为 了 提高 算法 的 精度 ,会 使 用 越 来 越 多 
的 特征 。 当 特征 向 量 维 数 不 高 时 ,增加 特征 确实 可 以 带 来 精度 上 的 提升 ;但 是 当 特 征 向 量 的 
维 数 增加 到 一 定 值 之 后 ,继续 增加 特征 反而 会 导 臻 精度 的 下 降 , 这 一 问题 称 为 维 数 灾难 。 引 
起 这 一 问题 的 主要 原因 是 高 维 空间 所 带 来 的 数据 稀 玻 性 ,从 而 导致 过 拟 合 。 

以 计算 机 视觉 领域 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 的 
ImageNet 图 像 分 类 任务 为 例 , 这 个 任务 要 对 1000 种 类 型 的 图 像 进 行 分 类 。 多 年 以 来 ,人 工 
设计 的 特征 在 精度 上 无 法 取得 突破 。2012 年 使 用 卷 积 神经 网 络 的 方法 出 现 之 后 ,准确 率 不 
断 得 到 提升 。 图 14. 2 是 ImageNet 竞赛 历年 冠军 的 top-5 错误 率 比 较 。 
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14.2 ImageNet 历年 的 错误 率 


在 2012 年 ,AlexNet 网 络 将 错误 率 从 2011 年 的 25.8% 大 幅度 降低 到 15. 3% ,随后 这 
个 记录 不 断 被 深度 卷 积 神经 网 络 刷新 。2013 4E ZF-Net 网 络 将 错误 率 降 低 到 了 11. 226; 
2014 年 VGGNet 将 错误 率 降低 到 6.7% 32015 残 差 网 络 ResNet 降低 到 3. 57% ,在 这 种 标 
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准 数据 集 上 首次 超越 人 类 5% 的 识别 错误 率 。 接 下 来 ,在 2016 年 错误 率 又 被 降低 到 2. 026. 
2017 年 降低 到 2. 25%。 至 此 ,这 个 问题 基本 已 经 解决 。 


141.2 ”机 器 学 习 算 法 


除了 人 工 设 计 的 特征 存在 不 足 之 外 ,前面 介绍 的 机 器 学 习 算 法 在 面 对 图 像 .语音 识别 等 
复杂 任务 时 也 存在 撼 颈 ,在 大 数据 集 上 泛 化 性 能 急剧 下 降 。 简 单 的 模型 在 面 对 复 杂 的 问题 
时 建 模 能 力 有 限 ;即使 能 在 训练 集 上 得 到 很 好 的 拟 合 效果 ,在 测试 集 上 表现 不 一 定好 。 而 表 
示 能 力 和 泛 化 能 力 是 衡量 机 器 学 习 算法 的 两 个 核心 指标 。 下 面 来 分 析 各 种 典型 机 器 算法 模 
型 的 复杂 度 ( 即 参数 的 规模 ), 如 表 14.2 所 示 。 


表 14.2 各 种 典型 机 器 学 习 算法 的 参数 规模 























算 法 $ Hu 参数 规模 
决策 树 判定 规则 ,如 阔 值 On) «n 为 决策 树 的 节点 数 
logistic 回归 权重 与 偏 置 Об) «n 为 输入 向 量 的 维 数 
支持 向 量 机 (线性 ) | 权重 与 偏 置 Об) «n 为 输入 向 量 的 维 数 
AdaBoost 弱 分 类 器 参数 , 弱 分 类 器 权重 “| OO ,为 弱 分 类 器 数量 ,: 为 弱 分 类 器 参数 数量 
神经 网 络 各 层 的 权重 与 篇 置 项 и 为 网 络 层 数 ,m 和 为 相 邻 两 层 神经 元 


除 神经 网 络 和 决策 树 之 外 ,对 于 指定 维 数 的 输入 向 量 , 其 他 模型 的 规模 都 是 确定 的 ,无 
法 人 为 控制 模型 规模 。 如 果 想 通过 加 大 模型 的 复杂 度 来 拟 合 更 复杂 的 函数 ,神经 网 络 是 最 
有 潜力 的 一 种 方法 。 另 一 方面 ,万 能 双 近 定理 从 理论 上 保证 了 多 层 神经 网 络 的 逼近 能 力 。 
虽然 决策 树 在 理论 上 也 能 拟 合 任意 的 函数 ,但 在 高 维 空间 容易 出 现 过 拟 合 。 

实践 证 明 * 人 工 特征 十 分 类 器 ”的 方案 不 能 解决 图 像 识别 .语音 识别 等 复杂 的 感知 问题 ， 
而 这 些 问题 又 是 人 工 智 能 当前 阶段 要 解决 的 核心 问题 。 因 此 ,需要 寻求 其 他 方法 ,目前 解决 
这 些 问 题 的 一 种 有 效 方法 就 是 本 章 和 接 下 来 几 章 将 要 介绍 的 深度 学 习 技 术 。 


14.2 深度 学 习 技 术 


如 果 能 通过 机 器 学 习 的 手段 自动 学 习 出 有 效 的 特征 ,同时 加 大 模型 的 复杂 度 , 人 们 有 和希 
望 更 好 地 处 理 复杂 的 问题 ,并 且 使 得 机 器 学 习 算法 具有 通用 性 。 前 面 已 经 比较 过 , 除 神经 网 
络 之 外 其 他 的 都 是 简单 模型 。 理 论 上 ,只 有 一 个 隐 含 层 的 神经 网 络 就 可 以 逼近 任意 连续 函 
数 到 任意 精度 ,只 要 加 大 网 络 的 深度 ,神经 元 的 数量 ,就 可 以 建立 更 复杂 的 模型 。 但 是 层次 
的 加 深 会 带 来 严重 的 问题 ,最 主要 的 问题 之 一 是 梯度 消失 外。 如 果 能 解决 神经 网 络 层次 过 
多 而 带 来 的 问题 ,就 可 以 用 深层 神经 网 络 来 完成 复杂 的 任务 。 

对 于 这 个 问题 的 努力 一 直 没 有 中 断 过 。Hinton 等 人 在 文献 [1] 中 提出 一 种 解决 深层 神 
经 网 络 训练 难题 的 方法 ,采用 受 限 玻 尔 兹 曼 机 和 逐 层 训练 的 方法 训练 深层 网 络 。 这 种 方法 
训练 了 一 个 有 多 个 隐 含 层 的 自动 编码 器 网 络 , 用 于 数据 降 维 ,这 也 可 以 看 作 是 特征 提取 。 自 
动 编码 器 是 一 种 特殊 的 神经 网 络 , 由 编码 器 和 解码 器 组 成 ,在 本 章 中 会 详细 介绍 。 网 络 前 面 
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的 层 为 编码 器 ,用 于 实现 对 数据 的 非 线 性 映射 ,从 而 提取 出 特征 ;网 络 的 后 半 部 分 为 解码 器 ， 
以 编码 器 输出 的 向 量 为 输入 , 重 构 出 原始 输出 向 量 。 

训练 有 多 个 隐 含 层 的 自动 编码 器 存在 困难 ,如 果 权 重 初始 值 设置 不 当 , 训 练 时 将 无 法 收 
敛 。 但 如 果 参 数 初始 值 已 经 接近 最 优 解 ,通过 梯度 下 降 法 可 以 完成 网 络 的 训练 。 文 献 [1] 的 
具体 做 法 是 先 训练 多 个 受 限 玻 尔 兹 曼 机 ,得 到 它们 的 权重 值 .然后 以 这 些 权重 作为 编码 器 各 
层 权 重 的 初始 值 , 以 它们 的 转 置 作为 解码 器 各 层 权重 的 初始 值 , 接 下 来 用 梯度 下 降 法 训练 自 
动 编码 器 。 在 多 个 数据 集 上 的 实验 结果 证 明了 这 种 方法 的 有 效 性 ,这 为 解决 多 层 神经 网 络 
难以 训练 的 问题 提供 了 一 种 新 的 思路 。 

文献 [1] 的 方法 虽然 在 实验 中 有 效 ,但 并 没有 大 规模 实用 。2012 年 Hinton 等 人 提出 的 
AlexNet 中 网 络 在 ImageNet 图 像 分 类 比赛 中 夺冠 ,大 幅度 领先 排名 第 二 的 算法 ,显示 出 深 
层 卷 积 神经 网 络 的 优势 ,这 是 一 种 更 具有 应 用 价值 的 方法 。 通 过 使 用 ReLU 激活 函数 和 
dropout 机 制 ,这 种 深层 网 络 可 以 被 成 功 地 训练 出 来 ,具体 的 原理 将 在 第 15 章 中 讲述 。 此 
后 深度 卷 积 神经 网 络 在 图 像 .视频 类 的 空间 数据 建 模 上 得 到 了 广泛 使 用 。 研 究 和 工程 实践 
结果 证 明 , 如 果 有 充足 的 训练 样本 ,更 深层 的 神经 网 络 在 复杂 问题 上 能 取得 更 好 的 效果 。 

在 时 间 序 列 数据 建 模 问题 上 ,循环 神经 网 络 取得 了 成 功 。 这 种 神经 网 络 可 以 记忆 长 时 
间 的 信息 ,因此 ,可 以 对 序列 数据 长 时 间 的 依赖 进行 建 模 ,这 比 隐 马 尔 可 夫 模 型 这 种 采用 一 
阶 马尔 可 夫 假 设 限制 的 方法 更 具有 优势 。 循 环 神经 网 络 在 语音 识别 、 自 然 语 言 处 理 、 机 器 视 
觉 中 的 时 态 数据 建 模 问 题 上 取得 了 成 功 。 

深度 学 习 并 不 是 特 指 某 种 具体 的 算法 ,而 是 一 类 机 器 学 习 算法 的 统称 ,它们 的 一 个 显著 
特点 是 无 须 使 用 人 工 设计 的 特征 ,将 特征 提取 与 机 器 学 习 算法 融合 到 一 起 ,直接 完成 端 到 端 
(End-to-End) 的 训练 ,这 是 一 种 通用 性 很 强 的 框架 。 以 人 图 像 识别 为 例 , 端 到 端的 训练 无 须 
再 为 图 像 设计 特征 ,而 是 直接 将 图 像 和 标签 值 送 入 机 器 学 习 算 法 中 进行 训练 。 通 过 更 换 样 
本 ,就 可 以 完成 不 同 的 任务 。 这 种 方案 的 处 理 流程 如 图 14.3 所 示 。 

















样本 上 上 -一 | 自动 提取 特征 预测 算法 —L——e—| ”预测 结果 























В 14.3 端 到 端 学 习 框 架 


深度 学 习 算 法 通过 深层 神经 网 络 来 自动 学 习 复杂 、 有 用 的 特征 ,完成 特征 抽取 与 机 器 学 
习 算 法 的 整合 ,从 而 提升 预测 的 精度 。 与 之 相对 应 的 是 浅 层 学 习 的 机 器 学 习 算 法 。 这 种 框 
架 提 供 了 很 大 的 灵活 性 ,针对 问题 的 特点 ,可 以 设计 各 种 不 同 的 神经 网 络 结构 ,使 用 不 同 的 
损失 函数 来 达到 目的 。 例 如 ,对 于 目标 检测 问题 .可 以 设计 专用 的 卷 积 神经 网 络 完成 对 目标 
位 置 和 大 小 的 预测 ;对 于 图 像 分 割 问题 ,可 以 设计 全 卷 积 网 络 完 成 对 每 个 像素 类 别 的 预测 。 

前 面 已 经 介绍 过 ,神经 网 络 层 数 的 增加 会 带 来 训练 的 困难 。 典 型 的 是 梯度 消失 和 退化 ， 
以 及 局 部 最 优 解 等 问题 。 深 度 学 习 算 法 通过 各 种 技巧 规避 这 些 问题 ,包括 新 的 激活 函数 如 
ReLU dropout 正则 化 技术 、 归 一 化 技术 、 跨 层 连接 等 手段 .保证 深层 神经 网 络 能 够 被 有 效 
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地 训练 出 来 。 

为 了 训练 出 更 为 复杂 的 模型 ,同时 要 避免 过 拟 合 问题 ,人 们 需要 更 大 规模 的 训练 样本 
集 。 大 型 互联 网 公司 如 Google ,腾讯 等 在 多 年 的 运营 中 积累 了 海量 的 数据 ;移动 设备 的 普 
及 也 让 音频 和 图 像 数 据 的 采集 变 得 更 为 容易 。 得 利于 这 些 因素 ,训练 复杂 模型 所 需 的 海量 
样本 被 有 效 满足 。 以 人 脸 识 别 问题 为 例 ,从 20 世纪 90 年 代 到 现在 ,常用 人 脸 数据 库 的 规模 
不 断 增长 ,在 深度 学 习 技术 出 现 之 后 ,数据 集 更 是 达到 了 前 所 未 有 的 规模 。 表 14.3 列 出 了 





























各 个 典型 的 人 脸 图 像 数 据 库 大 小 。 
表 14.3 各 种 人 脸 图 像 数据 库 的 大 小 
数 据 库 A 数 图 像 数 

YALE 人 脸 数据 库 15 165 
MIT 人 脸 数据 库 16 2592 
ORL 人 脸 数据 库 40 400 
FERET 人 脸 数据 库 200 1400 
LFW 1680 1.39] 
MSRA-CFW 1583 20 Ji 
WLFDB 6025 70 万 
CASIA-WebFace 1 万 50 万 
MegaFace 67.2 万 470 万 








人 脸 图 像 数 据 集 从 早期 的 百 数量 级 增长 到 目前 的 上 百 万 数量 级 ,海量 的 样本 数据 为 深 
度 学 习 算法 的 训练 提供 了 保证 。 在 很 多 问题 上 .大 数据 集 上 训练 出 来 的 复杂 模型 比 小 数据 
集训 练 出 来 的 简单 模型 在 精度 上 有 显著 的 提高 。 

模型 复杂 度 和 训练 样本 数 的 增加 带 来 的 一 个 问题 是 计算 量 的 急剧 增加 ,如 何 高 效 地 完 
成 神经 网 络 的 训练 和 预测 是 实际 使 用 时 必须 要 解决 的 问题 。 使 用 图 形 处 理 器 (Graphic 
Processing Unit,GPU) 的 并 行 计 算 技 术 非 常 适合 大 规模 的 矩阵 和 向 量 运算 ,与 CPU НК. 
GPU 能 够 带 来 2—3 个 数量 级 甚至 更 大 的 速度 提升 。 典 型 代表 是 NVIDIA 公司 的 CUDA 
E42) Google 公司 的 TPU( Tensor Processing Unit, 张 量 处 理 器 ) ,它们 被 广泛 应 用 于 卷 
积 神经 网 络 、 循 环 神经 网 络 等 深度 学 习 算 法 的 实现 。 另 外 ,分 布 式 计 算 技术 也 被 用 于 大 规模 
深度 学 习 模 型 的 训练 和 预测 。 


14.3 进展 与 典型 应 用 
深度 学 习 算 法 首先 在 机 器 视觉 领域 取得 了 成 功 .随后 被 用 于 语音 识别 、 自 然 语言 处 理 、 


数据 挖掘、 推荐 系统 计算机 图 形 学 等 方向 。 在 这 些 领 域 中 ,深度 学 习 算 法 在 很 多 问题 上 都 
取得 了 当前 最 好 的 性 能 。 
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14.3.1 计算 机 视觉 


机 器 视觉 是 深度 学 习 最 先 取得 突破 的 领域 ,也 是 应 用 最 广泛 的 领域 。 第 一 个 公开 的 卷 
积 神经 网 络 C 就 是 用 于 识别 手写 数字 图 像 ,AlexNet 也 是 用 于 图 像 分 类 问题 。 在 AlexNet 
网 络 之 后 , 卷 积 网 络 被 用 于 机 器 视觉 里 的 各 种 任务 ,包括 通用 目标 检测 .行人 检测 \ 人 脸 检 
测 \ 人 脸 关 键 点 定位 .人 脸 识别 .图 像 分 割 .边缘 检测 、 目 标 跟 踪 、 视 频 分 类 等 各 种 问题 ,都 取 
得 了 成 功 。 此 外 ,循环 神经 网 络 也 被 用 于 机 器 视觉 领域 ,解决 目标 跟踪 、 动 作 识别 等 问题 。 
在 第 15 章 和 第 16 章 将 会 详细 介绍 深度 学 习 算 法 在 机 器 视觉 领域 的 应 用 。 表 14. 4 是 对 深 
度 学 习 技 术 在 机 器 视觉 中 主要 问题 上 的 应 用 情况 总 结 。 


表 14.4 深度 学 习 技术 在 机 器 视觉 领域 里 的 应 用 














i) @ 典型 方法 
图 像 分 类 А1ехМе?! , ZF-Net'? ,GoogLeNet'? , VGGNetGo ,ResNet™] 
通用 目标 检测 КЫ . SPP-Nei!? , Fast R-CNNU9, Faster R-CNNU9, YOLOU9, SSDU", 
行人 检测 Cascade CNN“) 
人 脸 检测 Cascade CNN?” | Dense Box?! , Faceness-Net? ,MT-CNNU992 





DeepFace? , DeepID?9 , DeepID2U9 , DeepID3U9 , FaceNetU?, Center loss", 
Sphere 10552172 


字符 识别 文献 [28-31] 

图 像 分 割 FCNG2.69 ‚[уеер[ аЬ] .SegNetG5 
边缘 检测 DeepContour“)-27) , ГуеерЕйде #2 
风格 迁移 文献 [40] 

图 像 增强 文献 [41] 

深度 估计 文献 [42-48] 

目标 跟踪 文献 [49-59] 

动作 识别 文献 [60-64] 

视频 分 类 文献 [65-66] 

3D 视觉 文献 [67] 


人 脸 识别 






































使 用 深度 学 习 技 术 之 后 ,机 器 视觉 的 很 多 问题 都 取得 大 幅度 进展 。 以 人 脸 检 测 为 例 , 当 
前 最 好 的 结果 都 是 由 深度 卷 积 网 络 取得 的 ,这 些 方法 在 精度 上 远 超 之 前 的 算法 ,图 14.4 是 
FDDB 数据 集 上 各 种 算法 的 ROC 曲线 比较 。 

在 图 像 分 类 的 CIFAR 数据 库 `MNIST 数据 库 \、 人 脸 识别 的 LEW 数据 库 , 上 述 深度 学 
习 算 法 的 准确 率 也 不 断 得 到 提升 。 图 14. 5 是 在 LFW 数据 库 上 各 种 典型 人 脸 识 别 算法 的 
ROC 曲线 比较 。 

对 于 非常 有 挑战 性 的 通用 目标 检测 问题 ,深度 学 习 算 法 同样 取得 了 惊人 的 成 就 。 
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True positive rate 














0 П 1 1 
0 500 1000 1500 2000 
False positive 
FaceBoxes —+— Zhang et al. ——— Boosted Exemplar 一 一 一 
SFD —— Kumar et al. ——— SURF-frontal ——— 
RSA —— Barbu et al. 2 — — SURF-multiview 一 一 一 
ScaleFace —— DP2MFD 一 一 一 PEP-Adapt 一 一 一 
Face-R-CNN CCF XZJY 
HR-ER —— Faceness ——— Zhu et al. ——— 
HR —— NPDFace ——— Segui et al. ——— 
DeepIR —— MultiresHPM 一 一 一 Koestinger et al. ——— 
LDCF+ —— Barbu et al. ——— Li et al. ——— 
FastCNN —— DDFD 一 一 一 Jain et al. ——— 
mxnet 一 ~ 一 CascadeCNN 一 一 一 Subburaman et al. — — 
UnitBox —— Yan et al. — — Viola-Jones 一 一 一 
Xiaomi ACF-multiscale Mikolajczyk et al. 
Conv3D 一 一 一 Pice 一 一 一 Kienzle et al. 
Faster RCNN 一 一 一 HeadHunter 一 一 一 
Hyperface 一 一 一 Joint Cascade 一 一 一 


图 14.4 各 种 典型 人 脸 检测 算法 在 FDDB 的 ROC 曲线 比较 


Ж 14. 5 是 各 种 典型 的 深度 学 习 算法 在 目标 检测 数据 集 VOC2012 上 的 mAP 精度 比较 。 
表 14.5 深度 学 习 目标 检测 算法 在 VOC2012 上 的 mAP 精度 比较 
































算 法 mAP 精度 
R-CNN 62.4% 
YOLO 57.9% 
Fast R-CNN 68.4% 
Faster R-CNN 70.4% 
YOLO2 75.4% 
SSD512 82.2% 
FSSD512 84.2% 
RefineDet 86.8% 
R-FCN 88.4% 
FOCAL_DRFCN 88.8% 
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图 14.5 各 种 典型 人 脸 识别 算法 在 LFW 数据 库 上 的 ROC 曲线 比较 





14.3.2 语音 识别 


同样 作为 感知 类 问题 ,语音 识别 是 深度 学 习 又 一 个 成 功 应 用 的 领域 。 受 限 玻 尔 兹 曼 
机 5 四 被 用 于 声学 建 模 ,循环 神经 网 络 在 深度 学 习 出 现 之 前 就 被 用 于 语音 识别 问题 , 文 
献 [72] 对 循环 神经 网 络 在 语音 识别 问题 上 的 应 用 进行 了 重新 思考 。 在 用 于 声学 建 模 之 后 ， 
循环 神经 网 络 又 被 用 于 直接 实现 端 到 端的 语音 识别 算法 "* 。 除 了 循环 神经 网 络 之 外 , 卷 
积 神经 网 络 也 被 用 于 语音 识别 问题 rs” 。 

使 用 深度 学 习 技 术 之 后 ,语音 识别 的 准确 率 比 之 前 有 大 幅度 的 提高 。 另 一 方面 ,深度 学 
习 的 端 对 端 训练 框架 也 简化 了 训练 流程 , 减 小 了 训练 样本 处 理 的 工作 量 。 在 第 16 章 中 会 详 
细 介 绍 循环 神经 网 络 在 语音 识别 问题 上 的 应 用 。 


1433 自然 语言 处 理 


自然 语言 处 理 是 机 器 学 习 技术 主要 应 用 领域 之 一 。 隐 马尔 可 夫 模 型 支持 向 量 机 、 条 件 
随机 场 、 贝 叶 斯 分 类 器 等 算法 都 曾经 被 成 功 地 应 用 于 自然 语言 处 理 中 的 各 类 问题 。 与 机 器 
视觉 ,语音 识别 这 种 感知 类 问题 相 比 ,深度 学 习 技术 在 自然 语言 处 理 领 域 的 使 用 相对 更 晚 。 
循环 神经 网 络 具 有 记忆 功能 ,适合 对 自然 语言 处 理 中 时 序数 据 的 建 模 。 卷 积 神经 网 络 在 文 
本 分 类 、 机 器 翻译 等 问题 上 也 有 成 功 的 应 用 。 表 14. 6 总 结 了 深度 学 习 技 术 在 自然 语言 处 理 
领域 的 应 用 情况 。 
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表 14.6 深度 学 习 技术 在 自然 语言 处 理 领域 的 应 用 











i m 典型 方法 i m 典型 方法 
分 词 与 词性 标注 文献 [85-87] 自动 摘要 文献 [97-98] 
命名 实体 识别 文献 [88] 机 器 翻译 文献 [99-104] 
文本 分 类 文献 [89-96] 














在 第 15 章 和 第 16 章 中 会 详细 介绍 卷 积 神经 网 络 和 循环 神经 网 络 在 自然 语言 处 理 问 题 
上 的 应 用 。 


143.4 计算 机 图 形 学 


计算 机 图 形 学 的 任务 是 用 计算 机 程序 生成 图 像 , 尤 其 是 具有 真实 感 的 图 像 。 建 模 和 绘 
制 ( 也 称 为 泻 染 ) 是 图 形 学 里 两 个 重点 研究 的 问题 。 前 者 包括 建立 物体 和 场景 的 几何 模型 及 
物理 模型 ,例如 ,物体 表面 的 曲面 ,物体 运动 的 动力 学 模型 和 光照 模型 。 后 者 通过 建 模 数 据 
绘制 出 图 像 , 包 括 光照 纹理 映射 等 过 程 。 

机 器 学 习 与 深度 学 习 技 术 被 用 于 解决 计算 机 图 形 学 中 的 一 些 问题 ,它们 代表 了 数据 驱 
动 这 一 类 方法 ,与 传统 方法 不 同 的 是 ,需要 根据 训练 样本 学 习 来 建立 模型 。 在 计算 机 图 形 学 
ZN SIGGRAPH 上 出 现 了 越 来 越 多 的 用 深度 学 习 技 术 解 决 图 形 学 问题 的 论文 。 表 14. 7 
总 结 了 用 深度 学 习 技术 解决 图 形 学 问题 的 各 种 典型 方法 。 

表 14.7 深度 学 习 在 图 形 学 领域 的 应 用 














问 题 典型 方法 问 题 典型 方法 
几何 模型 文献 [105] 纹理 合成 文献 [110J[111] 
材质 建 模 文献 [106] HDR 文献 [112] 
流体 模拟 文献 [107J[108] 图 像 彩 色 化 文献 [113] 
光照 模型 文献 [109] 














14.35 推荐 系统 


推荐 系统 是 一 种 直接 面向 实际 应 用 的 技术 ,其 目标 是 给 用 户 推荐 可 能 感 兴趣 的 产品 , 例 
如 新 闻 和 商品 。 推 荐 系统 在 电 商 和 其 他 很 多 类 互联 网 公司 的 商业 模式 中 处 于 非常 重要 的 地 
位 。 为 用 户 推荐 什么 取决 于 用 户 的 特征 信息 和 历史 行为 ,如 性 别 、 年 龄 .之 前 的 购买 记录 ,以 
及 产品 的 特征 。 如 果 一 个 用 户 年 龄 较 大 ,我们 更 可 能 给 他 推荐 健康 类 产品 ;如果 一 个 用 户 之 
前 经 常 购 买 高 档 白酒 ,我 们 更 倾向 于 给 他 推荐 茅台 和 五 粮 液 ; 如 果 一 个 用 户 之 前 浏览 体育 类 
新 闻 ,我 们 就 更 倾向 于 给 他 推荐 此 类 新 闻 。 

一 般 来 说 ,人 们 将 推荐 算法 分 为 基于 内 容 的 推荐 .协同 过 滤 , 以 及 混合 算法 3 种 类 型 。 
基于 内 容 的 推荐 通过 分 析 产 品 的 内 容 信息 来 对 用 户 进 行 推荐 ,协同 过 滤 通 过 分 析 用 户 的 历 
史 行 为 和 偏好 来 进行 推荐 ,混合 算法 则 结合 了 多 方面 的 信息 。 奇 异 值 分 解 . 协 同 过 滤 、 基 于 
内 容 的 推荐 算法 都 被 成 功 地 应 用 于 实用 的 推荐 系统 。 深 度 学 习 技 术 也 被 用 于 数据 挖掘 与 推 





荐 系统 ,代表 性 的 方法 有 文献 [114-116] 和 [134] 。 
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14.3.6 深度 强化 学 习 


深度 学 习 与 强化 学 习 的 结合 使 得 强化 学 习 算 法 可 以 解决 某 些 策略 ,控制 类 问题 ,典型 的 包 
括 围棋 、 游 戏 、 机 器 人 控制 .无 人 驾驶 等 。 深 度 神经 网 络 在 这 里 的 作用 是 用 于 表示 强化 学 习 中 
的 动作 价值 函数 (Q 函数 ) 以 及 策略 函数 "号 ,典型 的 代表 是 深度 Q 网 络 (简称 DQN) 以 及 使 
用 深度 神经 网 络 的 策略 梯度 算法 。 深 度 学 习 和 深度 强化 学 习 的 原理 将 在 第 20 章 进行 介绍 。 


14.4 自动 编码 器 


深度 学 习 利 用 深层 神经 网 络 来 达到 自动 学 习 特征 的 目的 ,这 只 是 一 个 抽象 的 概念 ,并 没 
有 指明 具体 的 实现 方式 。 目 前 有 多 种 不 同 的 网 络 结构 可 以 实现 这 一 目标 ,包括 自动 编码 器 、 
受 限 玻 尔 效 曼 机 、 卷 积 神经 网 络 .循环 神经 网 络 等 ,它们 都 用 神经 网 络 对 输入 数据 进行 映射 ， 
得 到 输出 向 量 作为 特征 。 在 接 下 来 的 几 章 中 会 分 别 介绍 这 些 网 络 。 

自动 编码 器 (Auto-Encoders,AE) 是 本 书 介绍 的 第 一 种 深度 学 习 框架 ,也 是 最 简单 的 一 
种 模型 。 其 思路 是 直接 用 一 个 单 层 或 者 多 层 神经 网 络 对 输入 数据 进行 映射 ,得 到 输出 向 量 ， 
作为 从 输入 数据 提取 出 的 特征 。 在 这 种 框架 中 ,神经 网 络 的 前 半 部 分 为 编码 器 ,用 于 从 原始 
输入 数据 中 提取 特征 ;后 半 部 分 为 解码 器 ,训练 时 根据 提取 的 特征 重 构 原 始 数据 , 它 只 用 于 
训练 阶段 。 这 种 编码 器 -解码 器 结构 的 思想 在 卷 积 神经 网 络 、 循 环 神经 网 络 中 都 有 应 用 ,在 
后 面 的 各 童 中 会 详细 介绍 。 


14.4.1 自动 编码 器 简介 


自动 编码 器 是 用 于 特征 提取 和 数据 降 维 的 特殊 的 神经 网 络 。 最 简单 的 自动 编码 器 由 一 
个 输入 层 .一 个 隐 含 层 和 一 个 输出 层 组 成 。 隐 含 层 的 映射 充当 编码 器 的 角色 ,输出 层 的 映射 
充当 解码 器 的 角色 。 在 训练 时 ,编码 器 对 输入 向 量 进 行 编码 ,得 到 编码 后 的 向 量 ; 解 码 器 对 
编码 向 量 进 行 解码 重 构 , 得 到 重 构 后 的 向 量 , 它 
是 对 输入 向 量 的 近似 。 编 码 器 和 解码 器 同时 训 
练 ,在 这 里 并 没有 设置 每 个 数据 的 标签 值 ,是 一 
种 无 监督 的 学 习 , 训 练 的 目标 是 最 小 化 重 构 误 
差 , 即 让 重 构 向 量 与 原始 输入 向 量 之 间 的 误差 最 
小 化 。 训 练 完 成 之 后 ,只 使 用 编码 器 而 不 再 需要 
解码 器 ,编码 器 的 输出 结果 被 进一步 使 用 。 

下 面 来 看 一 个 实际 的 例子 。 在 这 个 网 络 中 ， 
输入 数据 是 6 维 向 量 , 因 此 输入 层 有 6 个 神经 
元 ; 隐 含 层 有 3 个 神经 元 ,对 应 编码 后 的 向 量 ; 输 
BEA 6 个 神经 元 ,对 应 重 构 后 的 向 量 。 这 个 自 
动 编码 器 的 结构 如 图 14.6 所 示 。 

自动 编码 器 是 一 种 无 监督 的 学 习 , 训 练 时 不 
需要 样本 标签 值 ,只 要 给 定 一 组 向 量 就 能 完成 训 图 14.6 一 个 简单 的 自动 编码 器 网 络 
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Ж. 事实 上 , 它 是 将 输入 数据 也 作为 标签 值 使 用 。 这 种 做 法 和 主 成 分 分 析 类 似 ,不 同 的 是 ， 
主 成 分 分 析 是 一 种 线性 变换 技术 ,神经 网 络 由 于 有 非 线 性 的 激活 函数 ,是 一 种 非 线 性 变换 ， 
可 以 处 理 更 为 复杂 的 数据 。 

训练 时 , 先 经 过 编码 器 得 到 编码 后 的 向 量 ,然后 再 通过 解码 器 得 到 解码 后 的 向 量 , 用 解 
码 后 的 向 量 和 原始 输入 向 量 计算 重 构 误 差 。 如 果 编 码 器 的 映射 函数 为 ,解码 器 的 映射 函 
数 为 g ,训练 时 优化 的 目标 函数 为 


1 
тїп zl | xi = ge (he Q2) 113 
i=l 


其 中 , 为 训练 样本 数 ,9 和 8 分 别 是 编码 器 和 解码 器 要 确定 的 参数 。 解 码 器 近似 于 编码 器 
的 反 函 数 ,但 这 只 是 一 个 不 严格 的 类 比 ,编码 器 一 般 不 是 一 对 一 映射 ,所 以 不 存在 反 函 数 。 
训练 可 以 采用 反 向 传播 算法 和 梯度 下 降 法 完成 。 

前 面 讲述 的 自动 编码 器 都 只 有 一 个 层 , 也 可 以 用 多 个 隐 含 层 来 表示 编码 器 和 解码 器 , 解 
码 器 也 可 以 这 样 实现 ,这 种 结构 被 文献 [1] 所 采用 。 


1442 ”去 噪 自动 编码 器 


去 噪 自动 编码 器 (Denoising Auto-Encoder,DAE)029 对 自动 编码 器 的 主要 改进 是 在 训 
练 样本 中 加 入 随机 噪声 , 重 构 的 目标 是 不 带 噪声 的 样本 数据 ,用 自动 编码 器 学 习 得 到 的 模型 
重 构 出 来 的 数据 可 以 去 除 这 种 噪声 ,获得 没有 被 噪声 污染 过 的 数据 ,这 也 意味 着 自动 编码 器 
能 从 有 噪声 的 数据 学 习 特 征 。 

对 于 每 个 样本 向 量 x 随机 选择 其 中 的 一 部 分 分 量 ,将 它们 的 值 置 为 0, 其 他 分 量 保持 不 
变 , 得 到 的 带 噪声 向 量 为 x*。 接 下 来 将 这 些 样 本 送 入 自动 编码 器 网 络 进行 训练 。 训 练 时 的 
优化 目标 为 


min эу >) [ж — ge б» Ga»; 
注意 : 这 里 的 重 构 目标 是 x 而 不 是 x DR ЖЯ AT UTE A th EAT HOS T P OR o 
1443 ”稀疏 自动 编码 器 


稀疏 自动 编码 器 509 是 对 自动 编码 器 的 改进 ,主要 的 区 别 在 于 训练 时 的 目标 函数 中 
加 入 了 稀疏 性 惩罚 项 ,使 得 编码 器 的 输出 向 量 中 各 个 分 量 的 值 尽 可 能 接近 于 0, 得 到 稀 玻 的 
编码 结果 。 

稀 玻 性 可 以 通过 神经 元 的 活跃 度 来 表示 , 它 是 一 个 神经 元 的 激活 函数 值 ,如 果 其 值 比较 
大 , 则 被 认为 是 活路 的。 编码 器 网 络 隐 含 层 的 第 i 个 神经 元 的 平均 激活 度 为 对 所 有 训练 样 
本 的 激活 函数 值 的 均值 , 记 为 6;。p 为 人 工 指定 的 活跃 度 , 是 一 个 接近 于 0 BR. ЖОЙ HE 
罚 项 为 编码 器 所 有 神经 元 的 平均 活跃 度 6; 与 。 的 相对 粹 之 和 。 稀 疏 性 惩罚 项 定义 为 


У (m (1 — p)ln =з 

i=1 Pi = ps 

其 中 ,n Ju 38038 ao Je BE С BY at АНАЙ Je ЛИ 6 ht N AS y f ЙО 25 5e BU f b + Ш 
ARABI AS BOE A1 i АНН]. EAE А A Be B. 0 4 ЖЕ r di i УРЕ K HT ЇЙ НО EIR 
Ж E fü Bü PE GE TJ ја, А 50 34 AEI AE Н Ёк РА 800 
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1 п 1— 
min. >} || x,— ge (ha (x) Ї}+ >} [on E + (1— g)ln ——£ 
2L iel pi Ip; 





其 中 ,8 是 一 个 人 工 设 定 的 系数 。 
1444 收缩 自动 编码 器 


收缩 自动 编码 器 (Contractive Auto-Encoder, CAE)! 对 自动 编码 器 的 改进 是 训练 时 
在 损失 函数 中 加 上 正则 化 项 ,使 得 编码 器 函数 的 导数 尽 可 能 小 。 训 练 时 的 优化 目标 为 
Lene (0) = У) (L (x,g (h(x))) +à ll L, G) ||?) 
x€ D 
其 中 ,D 为 训练 样本 集 。 损 失 函 数 的 第 二 项 为 正则 化 项 ,是 编码 器 函数 导数 的 二 范 数 平方 ， 


a 2 
|| L.G) 1° = y ( um 
可 i 


Ox 
其 中 ,4 为 人 工 设 定 的 参数 ;h 是 编码 器 函数 ;g 是 解码 器 函数 。 由 于 限制 了 编码 函数 偏 导数 
的 大 小 ,因此 ,收缩 自动 编码 器 能 够 抵抗 输入 数据 的 微小 扰动 ,如 果 导 数值 很 小 , 自 变量 值 的 
小 幅度 改变 不 会 导致 函数 值 的 激 变 。 


1445 ”多 层 编码 器 


单个 自动 编码 器 只 能 进行 一 层 特征 提取 ,可 以 将 多 个 自动 编码 器 组 合 起 来 使 用 ,得 到 一 
种 称 为 层 释 编 码 器 2002905 的 结构 。 层 释 自 动 编 编 码 器 由 多 个 自动 编码 器 串联 组 成 ,能 够 
逐 层 提取 输入 数据 的 特征 ,在 此 过 程 中 逐 层 降 低 输入 数据 的 维度 ,将 高 维 的 输入 数据 转化 成 
低 维 的 特征 。 

训练 也 是 逐 层 进行 的 。 给 定 输入 向 量 , 采 用 无 监督 方式 训练 第 一 层 自动 编码 器 。 把 第 
一 个 自动 编码 器 的 输出 作为 第 二 个 自动 编码 器 的 输入 ,采用 同样 的 方法 训练 第 二 个 自动 编 
码 器 。 重 复 第 二 步 直到 所 有 自动 编码 器 训练 完成 。 

在 每 一 层 , 都 会 得 到 输入 数据 的 不 同 抽象 特征 , 随 着 层 数 的 增加 ,这 个 特征 越 来 越 抽 象 。 
自动 编码 器 本 身 不 完成 分 类 或 者 其 他 任务 , 它 只 学 习 得 到 了 输入 数据 的 一 个 特征 表示 或 者 
是 对 数据 的 降 维 。 为 了 完成 分 类 任务 ,可 以 在 它 的 后 端 加 上 一 个 分 类 器 ,以 自动 编码 器 的 输 
出 作为 特征 向 量 。 





14.5 受 限 玻 尔 效 曼 机 


FIRI RA S BLU? (Restricted Boltzmann Machines. RBM) 是 一 种 随机 神经 网 络 , 其 
神经 元 的 输出 值 (状态 值 ) 具 有 随机 性 而 不 是 确定 性 。 这 种 神经 网 络 的 神经 元 有 两 种 类 型 ， 
分 别称 为 可 见 单元 和 隐藏 单元 .这 些 神 经 元 的 输出 值 服从 玻 尔 兹 曼 分 布 。 可 见 单 元 为 输入 
数据 ,隐藏 单元 是 从 输入 数据 提取 出 的 特征 。 


1451 ERŽEN 


玻 尔 兹 曼 分 布 是 统计 物理 中 的 一 种 概率 分 布 ,描述 系统 处 于 某 种 状态 的 概率 分 布 。 其 
概率 分 布 定义 为 


еу a) 
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其 中 ,x 是 状态 值 ,是 离散 型 随机 变量 ;energy(x) 是 处 于 这 种 状态 时 的 能 量 ;x 是 归 一 化 因 
子 , 以 保证 这 是 一 个 概率 分 布 。p(z) 定 义 了 系统 处 于 状态 + 的 概率 。 由 于 e“ 是 减 函 数 , 因 
此 ,系统 处 于 一 种 状态 时 的 能 量 越 高 , 则 处 于 这 种 状态 的 概率 越 低 , 反 之 则 越 高 ,这 使 得 系统 
要 从 高 能 量 状态 转向 低能 量 状 态 才能 稳定 下 来 。 

玻 尔 效 曼 分 布 在 物理 之 外 的 其 他 领域 也 有 应 用 ,如 最 优化 中 的 模拟 退火 算法 ,本 节 要 介 
绍 的 受 限 玻 尔 兹 曼 机 的 变量 服从 这 种 分 布 。 


14.5.2” 受 限 玻 尔 兹 曼 机 


受 限 玻 尔 兹 曼 机 是 一 种 随机 神经 网 络 。 在 这 种 模型 中 ,神经 元 的 输出 值 是 以 随机 的 方 
式 确 定 的 ,而 不 像 之 前 介绍 的 神经 网 络 那样 是 确定 性 的 。 

受 限 玻 尔 兹 曼 机 的 变量 (神经 元 ) 分 为 可 见 变量 和 隐藏 变量 两 种 类 型 ,并 定义 了 它们 服 
从 的 概率 分 布 。 可 见 变量 是 神经 网 络 的 输入 数据 ,如 图 像 ; 隐 藏 变量 可 以 看 作 是 从 输入 数据 
中 提取 的 特征 。 在 受 限 玻 尔 效 曼 机 中 ,可 见 变 量 和 隐藏 变量 都 是 二 元 变量 , 即 其 取 值 只 能 为 
0 或 1, 整个 神经 网 络 是 一 个 二 部 图 。 

二 部 图 是 指 图 的 节点 集合 被 划分 成 两 个 不 相 
交 的 子 集 , 这 两 个 子 集 内 的 节点 之 间 没 有 边 连接 ， 
子 集 之 间 的 节点 之 间 有 边 连 接 , 这 是 图 论 中 的 一 个 
概念 。 在 这 里 ,两 个 子 集 分 别 为 隐藏 节点 集合 和 可 
见 节点 集合 ,只 有 可 见 单元 和 隐藏 单元 之 间 才 会 存 
在 边 ,可 见 单元 之 间 以 及 隐藏 单元 之 间 都 不 会 有 边 
图 14.7 一 个 简单 的 RBM 连接 。 图 14.7 是 一 个 简单 的 受 限 玻 尔 效 曼 机 。 

这 个 受 限 玻 尔 兹 曼 机 有 4 个 可 见 节点 ,它们 





的 集合 为 
(77) 
可 见 节点 的 值 用 向 量 表示 为 w。 网 络 有 З 个 隐藏 节点 ,它们 的 集合 为 
{hi ttt hs} 
隐藏 节点 的 值 用 向 量 表示 为 h。 任 意 可 见 节点 和 隐藏 节点 之 间 都 有 边 连接 ,因此 一 共 
fi 12 条 边 。(v,h) 服 从 玻 尔 兹 曼 分 布 , 联 合 概率 定义 为 


pO.) = Few (= E, (v.h)) = zen (v TWh + b! v + d*h) 
Й Й 


其 中 ,0 是 模型 的 参数 ,包括 权重 矩阵 和 偏 置 向 量 。 其 中 能 量 定 义 为 
E, Cv,h) —— v'Wh — b! v —d'h 
可 见 变量 和 隐藏 变量 服从 玻 尔 兹 曼 分 布 ,而 且 隐 含 节点 、 可 见 节点 集合 内 部 没有 边 相 互 
连接 ,这 就 是 受 限 玻 尔 兹 曼 机 这 一 名 称 的 来 历 。 权 重 和 矩阵 W 的 元 素 wy 以 及 偏 置 向 量 一 起 
描述 了 变量 w Mh; 之 间 的 概率 关系 。Zs 是 归 一 化 因子 ,其 定义 为 
Z, = Dexp(— Е, (v,h)) 


Cou) 


由 于 变量 的 取 值 只 能 为 0 或 1, 对 于 上 面 例子 中 的 受 限 玻 尔 兹 曼 机 ,可 以 列 出 可 见 变 量 


和 隐藏 变量 取 各 种 值 时 的 概率 , 即 联合 概率 分 布 , 如 表 14. 8 所 示 。 
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表 14.8 RBM 变量 值 的 概率 分 布 
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由 于 篇 幅 的 限制 , 表 14. 8 中 只 列 出 了 一 部 分 取 值 情况 ,在 这 里 可 见 变量 和 隐藏 变量 有 
7 个 ,因此 ,所 有 的 取 值 有 2 种 情况 。 

给 定 可 见 变量 的 值 ,根据 模型 参数 可 以 得 到 隐藏 变量 的 条 件 概率 。 根 据 条 件 概 率 的 计 
算 公式 有 

_ pu _ plv,h) 
men po) Sp wh) 

上 式 分 母 为 对 下 所 有 可 能 的 取 值 进行 求 和 以 得 到 对 v 的 边缘 概率 值 。 将 p(wv,h) 的 定义 代 
入 上 式 , 可 以 得 到 





Zo” (— Ey(v,h)) 
pth | v) 








1 
= — E,(v.h) 
А 7;ехр ( 0 ) 


exp(v'Wh + b! v + d'h) 
S exp(oTWh + b* v + d'h) 
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TL У) exp(vtwih; + dh;) 
j hjel 
exp(uT wih; +d;h;) 
у У) expOv'wjh; +d;h;) 


hj € (0.1) 


= По о) 
i 
上 式 第 4 步 中 交换 了 求 和 与 连 乘 的 顺序 ,这 是 成 立 的 。 上 面 的 结果 表明 ,隐藏 节点 的 条 件 概 
率 是 相互 独立 的 。 在 已 知 可 见 变 量 o 的 条 件 下 ,有 
b (В |v) = p(h | v) рО, | v) 
反 过 来 可 以 用 类 似 的 方法 得 到 条 件 概率 p (o |h) 的 值 。 下 面 来 计算 已 知 可 见 变量 的 
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值 时 某 一 个 隐藏 变量 的 值 为 1 的 概率 : 
p hi = 1 |v) = EE CI HALE 


Э exp (v' wh; +djh;) 


h € (01) 





exp (v'wi+d;) 
exp (v'w; + d,) + exp (0) 


=o(v'w; +d;) 
其 中 , с 为 sigmoid 函数 ,上 面 的 结果 就 是 logistic 回归 的 映射 函数 。 可 见 变量 和 隐藏 变量 
之 间 的 关系 是 对 称 的 ,在 已 知 联合 概率 的 前 提 下 ,可 以 得 到 PCR] vo ,也 可 以 得 到 p(wv|h)。 
由 于 对 联合 概率 进行 建 模 ,因此 , 受 限 玻 尔 兹 曼 机 也 是 一 种 生成 模型 。 

下 面 以 文献 [1] 中 的 方法 为 例 说 明 怎样 用 受 限 玻 尔 兹 曼 机 实现 特征 提取 。 神 经 网 络 的 
输入 是 MNIST 数据 集中 的 手写 数字 图 像 , 把 它 拼接 成 784 维 的 向 量 , 是 受 限 玻 尔 兹 曼 机 的 
可 见 单元 ,提取 的 特征 向 量 是 隐藏 单元 。 神 经 网 络 权 重 和 偏 置 项 的 值 已 知 , 给 定 一 张 输入 图 
像 ,可 以 利用 神经 网 络 来 计算 它 的 特征 向 量 。 具 体 做 法 如 下 。 

CD 计算 第 i 个 隐藏 层 神经 元 的 激励 能 量 , 计 算 公 式 为 

а; = Уо; +4; 


(2) 根据 14.5.1 节 给 出 的 公式 计算 该 隐藏 单元 的 条 件 概率 值 , 即 状态 为 1 的 概率 : 
bi = ola;) 
(3) 以 p; 的 概率 将 隐藏 层 神经 元 的 状态 值 设置 为 1, 以 1 一 户 的 概率 将 其 设置 为 0。 
隐藏 变量 的 状态 值 就 是 从 图 像 提 取出 来 的 特征 向 量 。 从 这 个 计算 过 程 可 以 清晰 地 看 
出 , 受 限 玻 尔 兹 曼 机 是 一 种 随机 性 的 方法 。 


145.3 训练 算法 


训练 时 的 目标 为 最 大 化 似 然 函 数 , 迭代 更 新 网 络 参 数 直 至 收敛 ,这 种 方法 称 为 
Contrastive Divergence?? 。 每 次 迭代 的 过 程 如 下 。 

(1) 获取 一 个 训练 样本 ,根据 该 样本 设置 网 络 的 可 见 单 元 值 。 

(2) 对 于 每 个 隐藏 单元 ,计算 它 的 激励 能 量 : 


a; = ws; +d; 
j 








然后 计算 概率 值 : 
bi = с(а;) 
以 pi; 的 概率 将 第 i 个 隐藏 单元 的 状态 值 设置 为 1, 以 1 一 户 的 概率 将 状态 值 设 置 为 0。 
然后 为 每 条 边 „ЖШ ТЇН: 
pos(es) = хт, 
其 中 , zi 为 可 见 单元 或 隐藏 单元 第 i 个 神经 元 的 状态 值 。 
G) 用 类 似 的 方法 计算 每 个 可 见 单元 的 激励 能 量 а, ,并 更 新 它 的 状态 。 接 下 来 再 次 更 
新 隐藏 单元 状态 ,并 对 每 条 边 计 算 : 
neg(e;) = л, 
(4) 更 新 每 条 边 es HME: 
wj = wy + Y * CposCe;) — negCe;)) 
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其 中 ,row 为 边 的 权重 ,7 为 更 新 率 , 是 人 工 设 定 的 参数 。 
(5) 对 每 个 训练 样本 重复 以 上 操作 。 
该 迭代 过 程 直到 收敛 为 止 , 即 训练 样本 和 重 构 样 本 之 差 小 于 指定 阔 值 ,或 达到 指定 的 最 
大 迭代 次 数 。 
下 面 给 出 这 种 方法 的 解释 。 
在 第 一 个 过 程 中 ,pos(e; ) 评 价 了 通过 训练 样本 学 习 得 到 的 第 i 个 可 见 单元 和 第 j 个 隐 
藏 单元 间 的 关联 ,如 果 它 们 的 状态 值 都 为 1, 则 表示 该 可 见 单元 支撑 了 该 隐藏 单元 。 
在 重 构 时 ,基于 现 有 的 模型 和 隐藏 单元 状态 来 预测 可 见 单元 的 值 。neg(ez ) 评 价 了 受 限 
玻 尔 兹 曼 机 网 络 的 预测 能 力 。 例 如 ,如 果 输 入 值 为 1, 通过 重 构 过 程 重 构 的 预测 值 也 为 1, 则 
表示 预测 正确 。 
通过 为 每 条 边 增 加 pos(ey ) — neg (ey), 可 以 使 得 预测 结果 与 实际 训练 样本 更 加 一 致 。 
如 果 预 测 不 一 致 ,neg(e; ) 会 较 大 ,pos(ei ) 一 neg(e; ) 较 小 或 为 负 值 ,这 表明 该 条 边 建立 的 单 
元 i 和 j 的 关系 是 不 可 靠 的 ,应 该 减 小 它们 的 关系 ( 即 边 的 权重 )。 
根据 万 能 逼近 定理 ,有 一 个 隐 含 层 的 前 馈 型 神经 网 络 能 够 逼近 闭 区 间 上 任何 一 个 连续 
的 函数 。 受 限 玻 尔 效 曼 机 的 可 见 层 和 隐藏 层 神经 元 是 二 值 的 ,神经 元 的 状态 值 也 以 随机 的 
方式 生成 , 它 的 拟 合 能 力 是 需要 考虑 的 一 个 问题 。 文 献 [130] 对 这 个 问题 进行 了 分 析 ,结论 
指出 ,增加 隐藏 单元 的 个 数 可 以 直接 提高 受 限 玻 尔 效 曼 机 的 建 模 能 力 ; 另 外 , 受 限 玻 尔 效 曼 
机 具有 逼近 任何 一 个 离散 型 概率 分 布 的 能 力 。 


14.5.4 ”深度 玻 尔 兹 曼 机 


前 面 介绍 的 是 单个 隐藏 层 模型 ,与 自动 编码 器 类 似 , 可 以 将 多 个 受 限 玻 尔 效 曼 机 层 释 加 
起 来 使 用 ,在 种 结构 称 为 深度 玻 尔 兹 曼 机 (Deep Boltzmann Machine. DBM)") 。 通 过 多 层 
的 受 限 玻 尔 兹 曼 机 ,可 以 完成 数据 在 不 同 层 次 上 的 特征 提取 和 抽象 。 

在 训练 时 以 可 见 层 数 据 为 输入 ,训练 第 一 层 受 限 玻 尔 兹 曼 机 ;然后 将 第 一 层 受 限 玻 尔 兹 
曼 机 的 输出 作为 输入 ,训练 第 二 层 模 型 ;依次 类 推 ,就 可 以 得 到 每 一 层 受 限 玻 尔 兹 曼 机 。 在 
预测 时 ,将 原始 输入 向 量 送 入 第 一 级 受 限 玻 尔 兹 曼 机 ,产生 的 输出 送 入 第 二 级 受 限 玻 尔 兹 曼 
机 ,经 过 所 有 级 受 限 玻 尔 兹 曼 机 处 理 之 后 产生 输出 数据 ,这 种 层 释 结果 与 堆 释 自动 编码 器 
类 似 。 


1455 深度 置信 网 


在 DBM 中 ,所 有 层 的 节点 之 间 的 连接 关系 是 无 向 的 ,如 果 限 制 某 些 层 之 间 的 连接 关系 
为 有 向 的 ,就 得 到 另外 一 种 结构 , 称 为 深信 度 网 络 (Deep Belief Network, DBN)。 在 DBN 
中 ,靠近 输入 层 的 各 个 层 之 间 的 连接 关系 是 有 向 的 ,是 贝 叶 斯 置信 网 ;靠近 输出 层 的 各 个 层 
之 间 的 连接 关系 是 无 向 的 ,是 受 限 玻 尔 兹 曼 机 。 
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第 15 = 
卷 积 神经 网 络 


在 各 种 深度 神经 网 络 中 , 卷 积 神经 网 络 是 应 用 最 广泛 的 一 种 , 它 由 LeCun 在 1989 年 提 
出 中 ,被 成 功 应 用 于 手写 字符 图 像 的 识别 中。2012 年 ,有 更 深层 次 的 AlexNet 网 络 在 图 
像 分 类 任务 中 取得 成 功 ,此 后 卷 积 神经 网 络 高 速 发 展 ,被 广泛 用 于 机 器 视觉 等 领域 ,在 很 多 
问题 上 都 取得 了 当前 最 好 的 性 能 。 

卷 积 神 经 网 络 通过 卷 积 和 池 化 层 自动 学 习 图 像 在 各 个 尺度 上 的 特征 ,这 借鉴 自 人 类 理 
解 图 像 时 所 采用 的 做 法 。 人 在 认 知 图 像 时 是 分 层 进行 的 ,首先 理解 的 是 颜色 和 亮度 ,然后 是 
边缘 、 角 点 、 直 线 等 局 部 细节 特征 , 接 下 来 是 纹理 、 形 状 、 区 域 等 更 复杂 的 信息 和 结构 ,最 后 形 
成 整个 物体 的 概念 。 

视觉 神经 科学 之 前 对 于 视觉 机 理 的 研究 已 经 证 明了 大 脑 的 视觉 皮层 具有 分 层 结 构 。 眼 
睛 将 看 到 的 物体 成 像 在 视网膜 上 ,视网膜 把 光学 信号 转换 成 电信 号 ,传递 到 大 脑 的 视觉 皮层 
(Visual Cortex) ,视觉 皮层 是 大 脑 中 负责 处 理 视觉 信号 的 部 分 。1959 年 ,David 和 Wiesel 
进行 了 一 次 实验 加 ,他 们 在 猫 的 初级 视觉 皮层 内 插入 电极 ,在 猫 的 眼前 展示 各 种 形状 、 空 间 
位 置 、 角 度 的 光 带 ,然后 测量 大 脑 神经 元 放出 的 电信 号 。 实 验 发 现 , 当 光 带 处 于 某 一 位 置 和 
角度 时 ,电信 号 最 为 强烈 ;不 同 的 神经 元 对 各 种 空间 位 置 和 方向 偏好 不 同 。 这 一 实验 证 明了 
这 些 视觉 神经 细胞 具有 选择 性 。 

视觉 皮层 具有 层次 结构 。 从 视网膜 传 来 的 信号 首先 到 达 初 级 视觉 皮层 (Primary Visual 
Cortex) Bl V1 皮层 。V1 皮层 简单 神经 元 对 一 些 细节 ,特定 方向 的 图 像 信号 敏感 。V1 皮 
层 处 理 之 后 ,将 信号 传导 到 V2 皮层 。V2 皮层 将 边缘 和 轮廓 信息 表示 成 简单 形状 ,然后 由 
V4 皮层 中 的 神经 元 进行 处 理 , 它 对 颜色 信息 敏感 。 复 杂 物 体 最 终 在 IT 皮层 (Inferior 
Temporal Cortex) 被 表示 出 来 。 

卷 积 神经 网 络 可 以 看 成 是 对 上 面 这 种 机 制 的 简单 模仿 。 它 由 多 个 卷 积 层 构成 ,每 个 卷 
积 层 包含 多 个 卷 积 核 , 用 这 些 卷 积 核 从 左 向 右 、 从 上 往 下 依次 扫描 整个 图 像 ,得 到 称 为 特征 
图 (Feature Map) 的 输出 数据 。 网 络 前 面 的 卷 积 层 捕 提 图 像 局 部 、 细 节 信 息 , 有 小 的 感受 野 ， 
即 输出 图 像 的 每 个 像素 只 对 应 输入 图 像 很 小 的 一 个 范围 。 后 面 的 卷 积 层 感受 野 逐 层 加 大 ， 
用 于 捕获 图 像 更 复杂 ,更 抽象 的 信息 。 经 过 多 个 卷 积 层 的 运算 ,最 后 得 到 图 像 在 各 个 不 同 尺 
度 的 抽象 表示 。 








15.1 网 络 结构 


典型 的 卷 积 神经 网 络 由 卷 积 层 、 池 化 层 、 全 连接 层 构成 ,本 节 分 别 介 绍 这 些 层 的 原理 ,全 
连接 层 与 第 9 章 中 介绍 的 神经 网 络 相同 ,这 里 重点 介绍 的 是 卷 积 层 和 池 化 层 。 
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在 数字 图 像 处 理 领域 , 卷 积 是 一 种 常见 的 运算 。 它 可 用 于 图 像 去 噪 .增强 .边缘 检测 等 
问题 ,还 可 以 用 于 提取 图 像 的 特征 。 卷 积 运算 用 一 个 称 为 卷 积 核 的 矩阵 自 上 而 下 、 自 左 向 右 
在 图 像 上 滑动 ,将 卷 积 核 矩阵 的 各 个 元 素 与 它 在 图 像 上 覆盖 的 对 应 位 置 的 元 素 相 乘 ,然后 求 
和 ,得 到 输出 值 。 下 面 以 Sobel 边缘 检测 算 子 为 例 , 它 的 卷 积 核 矩 阵 为 

» = E 
0 0 0 
ае 
假设 输入 图 像 以 (z,y) 为 中 心 的 3 关 3 子 图 像 为 
Ls: Eu La 
| I | Ls | 
pee Lyn МА 
在 该 点 处 的 卷 积 结果 按照 如 下 方式 计算 : 
= i 
即 以 (z,y) 为 中 心 的 子 图 像 与 卷 积 核 的 对 应 位 置 元 素 相 乘 ,然后 相 加 得 到 卷 积 后 的 值 。 在 
这 里 ,是 相 邻 像素 相 减 ,使 用 的 是 中 心 差 分 公式 。 通 过 将 卷 积 从 上 到 下 、 从 左 到 右 依 次 作用 
于 输入 图 像 的 所 有 位 置 , 可 以 得 到 图 像 的 边缘 图 。 边 缘 图 在 边缘 位 置 有 更 大 的 值 ,在 非 边 缘 
处 的 值 接近 于 0。 

BR Sobel 算 子 之 外 ,常用 的 还 有 Roberts WF Prewitt 算 子 等 ,它们 实现 卷 积 的 方法 相 
同 , 但 使 用 了 不 同 的 卷 积 核 矩 阵 。 通 过 这 种 卷 积 运算 可 以 抽取 图 像 的 边缘 ,如 果 我 们 使 用 其 
他 的 卷 积 核 ,可 以 抽取 更 一 般 的 图 像 特征 。 在 图 像 处 理 中 ,这些 卷 积 核 矩 阵 的 数值 是 根据 经 
验 人 工 设计 的 ,也 可 以 通过 机 器 学 习 的 手段 来 自动 生成 这 些 卷 积 核 ,从 而 描述 各 种 不 同类 型 
的 特征 。 卷 积 神经 网 络 就 是 通过 自动 学 习 的 手段 来 得 到 各 种 有 用 的 卷 积 核 。 

卷 积 运算 使 用 卷 积 核 矩 阵 遍历 整个 图 像 ,对 所 有 位 置 进行 卷 积 操作 ,得 到 输出 图 像 。 假 
设 卷 积 核 矩阵 为 K ,是 一 个 ;Xs 的 矩阵 , 卷 积 输入 图 像 为 X, 在 图 像 的 (i,7) 坐 标 处 , 卷 积 操 
作 的 输出 值 为 

> » kpg © Хара 
即将 卷 积 核 矩阵 和 图 像 对 应 位 置 处 的 元 素 相 乘 ,然后 累加 求 和 得 到 输出 值 。 对 整个 图 像 从 
上 到 下 、 从 左 到 右 依 次 进行 卷 积 .得 到 卷 积 之 后 的 图 像 。 下 面 通过 一 个 实际 的 例子 来 理解 卷 
积 运算 。 如 果 卷 积 输入 图 像 为 
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卷 积 核 为 


1 5 2 
T xn 


首先 用 图 像 第 一 个 位 置 处 的 子 图 像 , 即 左上 和 角 的 子 图 像 和 卷 积 核 对 应 元 素 相 乘 ,然后 相 
加 ,在 这 里 子 图 像 为 
зї 7 


1 3 9 
p 3 | 
卷 积 结果 为 
11X1+1X5+7X2+1X2+3X6+9X3+7X7+3X1+9X1 = 138 
接 下 来 在 待 卷 积 图 像 上 向 右 滑 动 一 列 ,将 第 二 个 位 置 处 的 子 图 像 
ї 7-2 
f 9 6 
3 9 6 
与 卷 积 核 进行 卷 积 ,结果 为 154。 接 下 来 ,再 向 右 滑 动 一 位 ,将 第 三 个 位 置 处 的 子 图 像 与 卷 
积 核 进 行 卷 积 ,结果 为 166 。 处 理 完 第 一 行 之 后 ,退回 到 第 一 列 , 向 下 滑动 一 行 ,然后 重复 上 
面 的 过 程 。 以 此 类 推 , 最 后 得 到 卷 积 结果 图 像 为 
138 154 166 
126 167 133 
104 110 121 
经 过 卷 积 运算 之 后 图 像 尺寸 变 小 了 ,如 果 原 始 图 像 是 mxXn, 卷 积 核 为 sXs, 则 卷 积 结果 
图 像 的 尺寸 为 











(m—s+1)X (n—sc1) 

也 可 以 先 对 图 像 进行 扩充 (Padding) ,例如 在 周边 补 0, 然 后 用 尺寸 扩大 后 的 图 像 进 行 
卷 积 ,保证 卷 积 结果 图 像 和 原 图 像 尺 寸 相同 。 在 从 上 到 下 、 从 左 到 右 滑 动 过 程 中 ,水 平和 垂 
直方 向 滑动 的 步 长 都 是 1, 也 可 以 采用 其 他 步 长 。 

接 下 来 利用 卷 积 操作 来 构建 卷 积 神经 网 络 。 前 馈 型 神经 网 络 由 多 个 神经 元 层 构 成 ,每 
一 层 的 所 有 节点 和 上 一 层 、 下 一 层 的 所 有 节点 之 间 都 有 连接 ,由 于 这 些 层 的 节点 之 间 是 全 连 
接 关 系 ,因此 称 为 全 连接 层 。 卷 积 神经 网 络 在 标准 的 前 馈 型 神经 网 络 基 础 上 加 了 一 些 卷 积 
层 和 池 化 层 。 一 个 简单 的 卷 积 神经 网 络 如 图 15. 1 所 示 。 
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15.1 一 个 简单 的 卷 积 神经 网 络 


假设 输入 图 像 的 子 图 像 在 (i7 ) 位 置 的 像素 值 为 zy, 卷 积 核 矩 阵 在 位 置 (p,q) 的 元 素 
值 为 Am 。 卷 积 核 作用 于 图 像 的 某 一 位 置 , 得 到 的 输出 为 
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其 中 ,7 为 激活 函数 ;2 为 偏 置 项 。 这 里 使 用 激活 函数 的 原因 和 前 馈 型 神经 网 络 一 样 ,是 为 
了 保证 非 线性 。 卷 积 核 与 偏 置 项 通过 学 习 得 到 ,与 普通 神经 元 类 似 , 卷 积 核 参 数 即 为 连接 权 
重 , 偏 置 和 普通 神经 网 络 的 偏 置 相同 ,激活 函数 也 一 样 。 在 这 里 , 卷 积 核 也 被 称 为 滤波 器 。 

每 个 卷 积 核 是 一 个 特征 抽取 器 ,图 像 中 所 有 位 置 处 的 卷 积 操作 共享 这 个 卷 积 核 的 权重 。 
只 有 一 个 卷 积 层 一 般 是 不 够 的 ,因为 我 们 要 在 不 同 的 尺度 和 层次 上 进行 特征 抽取 ,如 果 只 有 
一 个 卷 积 层 ,就 只 能 处 理 一 个 尺度 。 为 此 ,需要 设计 多 个 卷 积 层 。 另 外 ,只 抽取 一 种 特征 一 
般 也 是 不 够 用 的 ,因此 ,每 个 卷 积 层 需要 多 个 卷 积 核 ,抽取 各 种 不 同 的 特征 。 

前 面 讲述 的 是 单 通道 图 像 卷 积 ,输入 是 二 维 数 组 。 实 际 应 用 时 遇 到 的 经 常 是 多 通道 图 
像 , 如 RGB 彩色 图 像 有 三 个 通道 ,另外 由 于 每 一 层 可 以 有 多 个 卷 积 核 ,产生 的 输出 也 是 多 通 
道 的 特征 图 像 , 此 时 对 应 的 卷 积 核 也 是 多 通道 的 。 具 体 做 法 是 用 卷 积 核 的 各 个 通道 分 别 对 
输入 图 像 的 各 个 通道 进行 卷 积 , 然 后 把 对 应 位 置 处 的 像素 值 按照 各 个 通道 累加 。 

由 于 每 一 层 允 许 有 多 个 卷 积 核 , 卷 积 操作 后 会 输出 多 张 特征 图 像 ,因此 ,第 /个 卷 积 层 
每 个 卷 积 核 的 通道 数 必须 和 输入 特征 图 像 的 通道 数 相 同 , 即 等 于 第 /一 1 个 卷 积 层 的 卷 积 核 
的 个 数 。 图 15. 2 是 多 通道 卷 积 的 例子 。 





























ws 


卷 积 核 4 
15.2 多 通道 卷 积 


在 图 15. 2 中 卷 积 层 的 输入 图 像 是 3 通道 的 (图 中 第 1 列 ) 。 对 应 地 , 卷 积 核 也 是 3 通道 
的 (图 中 第 2 列 ) 。 在 进行 卷 积 操作 时 ,分别 用 每 个 通道 的 卷 积 核对 对 应 通道 的 图 像 进行 卷 
积 ,然后 将 同一 个 位 置 处 的 各 个 通道 值 累 加 ,得 到 一 个 单 通道 图 像 。 在 图 15.2 中 ,有 4 个 卷 
积 核 ,每 个 卷 积 核 产生 一 个 单 通道 的 输出 图 像 ,4 个 卷 积 核 共 产生 4 个 通道 的 输出 图 像 。 

卷 积 核 在 一 次 卷 积 操作 时 对 原 图 像 的 作用 范围 称 为 感受 野 ,不 同 的 卷 各 层 有 不 同 的 感 
受 野 。 网 络 前 面 的 卷 积 层 感受 野 小 ,用 于 提取 图 像 细节 的 信息 ;后 面 的 卷 积 层 感受 野 更 大 ， 
用 于 提取 更 大 范围 的 ,高 层 的 抽象 信息 ,这 是 多 层 卷 积 网 络 的 设计 初衷 。 
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通过 卷 积 操作 ,完成 了 对 输入 向 图 像 的 降 维 和 特征 抽取 ,但 特征 图 像 的 维 数 还 是 很 高 。 
维 数 高 不 仅 计 算 耗 时 ,而 且 容 易 导 致 过 拟 合 。 为 此 ,引入 了 下 采样 技术 ,也 称 为 池 化 
(pooling) 操 作 。 
最 基本 的 池 化 操作 的 做 法 是 对 图 像 的 某 一 个 区 域 用 一 个 值 代 蔡 ,如 最 大 值 或 平均 值 。 
如 果 采 用 最 大 值 , 称 为 最 大 池 化 ;如 果 采 用 均值 , 称 为 均值 池 化 。 除 了 降低 图 像 尺寸 之 外 , 池 
化 带 来 的 另外 一 个 好 处 是 一 定 程 度 的 平移 .旋转 不 变性 ,因为 输出 值 由 图 像 的 一 片区 域 计 算 
得 到 ,对 于 小 幅度 的 平移 和 旋转 不 敏感 。 
下 面 通过 一 个 实际 例子 来 理解 池 化 运算 。 输 入 图 像 为 
H 72 
1 3 9 6 
7 3 9 6 
4 3 2 6 
在 这 里 进行 无 重 倒 的 2X2 最 大 池 化 ,结果 图 像 为 
11 9 
E 
结果 图 像 中 第 一 个 元 素 11 是 原 图 左上 角 2x 2 FAR: 
11. 1 
[: 3] 
元 素 的 最 大 值 11。 第 二 个 元 素 9 为 第 二 个 2X2 FAK: 
T 2 
MH 
元 素 的 最 大 值 9, 其 他 的 以 此 类 推 。 如 果 是 采用 均值 池 化 ,结果 为 


[шн ы] 
4.24 5.75 


池 化 层 实现 时 是 在 进行 卷 积 操作 之 后 对 得 到 的 特征 图 像 进 行 分 块 ,图 像 被 划分 成 不 相 
交 的 块 ,计算 这 些 块 内 的 最 大 值 或 平均 值 ,得 到 池 化 后 的 图 像 。 均 值 池 化 和 最 大 池 化 都 可 以 
完成 降 维 操作 ,前 者 是 线性 函数 ,而 后 者 是 非 线性 函数 ,一 般 情况 下 最 大 池 化 有 更 好 的 效果 。 


1513 全 连接 层 


图 15. 1 的 卷 积 网 络 第 3 个 层 为 全 连接 层 。 该 层 的 每 个 节点 和 上 一 层 中 所 有 图 像 的 所 
有 像素 都 有 连接 。 实 际 上 ,这 一 层 和 普通 的 神经 网 络 没有 区 别 。 第 4 层 为 输出 层 , 每 个 神经 
元 和 上 一 层 的 每 个 神经 元 保持 连接 。 对 于 分 类 问题 ,输出 层 神经 元 的 个 数 由 类 别 数 决定 , 具 
体 做 法 和 第 9 章 介 绍 的 全 连接 神经 网 络 相同 。 

卷 积 神经 网 络 的 正 向 传播 算法 和 全 连接 神经 网 络 类 似 , 只 不 过 输入 的 是 二 维 或 者 更 高 
维 的 图 像 , 输 入 数据 依次 经 过 每 个 层 , 最 后 产生 输出 。 卷 积 层 、 池 化 层 的 正 向 传播 计算 方法 
前 面 已 经 讲述 ,结合 全 连接 层 的 正 向 传播 方法 ,可 以 得 到 整个 卷 积 神经 网 络 的 正 向 传播 
算法 。 
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15.2 训练 算法 


在 全 连接 网 络 中 ,权重 和 偏 置 通过 反 向 传播 算法 训练 得 到 , 卷 积 网 络 的 训练 同样 使 用 这 
种 算法 。 反 向 传播 算法 的 关键 是 计算 误差 项 的 值 .根据 该 值 计算 损失 函数 对 权重 、 偏 置 项 的 
梯度 值 。 全 连接 层 的 反 向 传播 算法 在 第 9 章 中 已 经 讲述 过 ,下 面 重点 对 卷 积 层 、 池 化 层 的 反 


向 传播 实现 进行 介绍 。 
152.1 RE 

在 开始 推导 之 前 ,首先 回顾 一 下 第 9 章 中 介绍 的 全 连接 神经 网 络 反 向 传播 算法 的 误差 
项 递 推 计算 公式 : 


6° = (wey )76%+0 Of a” ) 
根据 误差 项 计算 权重 梯度 值 的 公式 为 
Vwo L = 6 (0-0 yT 
上 面 的 公式 具有 普遍 意义 ,可 以 推广 到 卷 积 网 络 中 ,因为 卷 积 网 络 可 以 看 作 是 一 种 权重 
共享 .局 部 连接 的 神经 网 络 。 根 据 前 面 的 定义 , 卷 积 层 的 正 向 传播 计算 公式 为 
af = fou?) = f(D У аА H) 
卷 积 输出 图 像 的 任意 一 个 元 素 都 与 卷 积 核 矩 阵 的 任意 一 个 元 素 都 有 关 , 因 为 输出 图 像 
的 每 一 个 像素 值 都 共用 了 一 个 卷 积 核 模板 。 反 向 传播 时 需要 计算 损失 函数 对 卷 积 核 以 及 偏 
置 项 的 偏 导数 ,和 全 连接 网 络 不 同 的 是 , 卷 积 核 要 作用 于 同一 个 图 像 的 多 个 不 同位 置 。 根 据 
链 式 法 则 ,损失 函数 对 第 工 层 的 卷 积 核 的 偏 导 数 为 
д1, aL aa? IL 9a ди? 
ag- УУ (эх эрк) = DD (xvid mE) 
在 这 里 i 和 j 是 卷 积 输 出 图 像 的 行 和 列 下 标 , 这 是 因为 输出 图 像 的 每 一 个 元 素 都 与 卷 
积 核 的 元 素 mw 相关。 首先 看 上 式 最 右边 求 和 项 的 第 二 个 乘积 项 : 


m 

Ixy T 
о = f (uf) 

au? f (us 


这 是 激活 函数 对 输入 值 的 导数 ,激活 函数 作用 于 每 一 个 元 素 , 产 生 同 尺寸 的 输出 图 像 ， 
和 全 连接 网 络 相 同 。 第 三 个 乘积 项 为 
2 (32 D айына X +9) 


D 
дш; p=1 q=1 AD 

a a i+p—l,j+q—1 
Ikpa Ikpa 




















BA, BOR i ВЕ BET ЕПН C 0 
229 ORD 


aL aL v £ 

эке = 2222 (Epi OPi) 

偏 置 项 的 偏 导数 更 简单 : 

aL 9L az 多 IL аг? дщ? aL i 
mo 一 2 > (25 ape > > ax? uP apo P» aot (uf) 
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这 和 全 连接 层 的 计算 方式 类 似 。 同 样 可 定义 误差 项 为 


8Ф 一 IL = 3L Ixy 
ij 


au? ax? du? 
这 是 损失 函数 对 临时 变量 的 偏 导数 。 与 全 连接 神经 网 络 不 同 的 是 ,这 是 一 个 矩阵 : 
o == 05 

















88 … ош 
尺寸 和 卷 积 输 出 图 像 相 同 ,而 全 连接 层 的 误差 向 量 和 该 层 的 神经 元 个 数 相等 。 这 样 有 
9 一 Ži Рн) 

x di d — 4 38 PUB E в ЧА Ke? 则 充当 输入 图 像 。 为 了 看 得 更 清楚 一 些 ， 
下 面 以 一 个 简单 的 例子 来 说 明 ,假设 卷 积 核 矩 阵 为 








ku ki Ёз 
ka kz kz 
ka ksz kss 





输入 图 像 是 


Ta Ta Tn Tu 
Е M 
из Uz 


On Ow 
[> | 
下 面 计算 损失 函数 对 卷 积 核 各 个 元 素 的 偏 导数 ,根据 链 式 法 则 有 
aap aug agp ap Pe Se 
= тиди 十 Ziz0l + raða + r202 
这 是 因为 产生 输出 и 时 卷 积 核 元 素 和 :在 输入 图 像 中 对 应 的 元 素 是 za 。 产 生 输 出 a 
时 卷 积 核 元 素 ku 在 输入 图 像 中 对 应 的 元 素 是 za 。 其 他 的 依次 类 推 。 同 样 有 


函数 : 


对 应 的 误差 项 矩阵 6 为 





+ д 





























д1, 

a xin 213012 2202 223022 
Ik 
CR12 

д1, 

a zijn 1012 123021 T2102 
Ik 
913 

2L 

[G] алди 222012 хада T3202 
Ik 
OR 


其 他 的 以 此 类 推 。 从 上 面 几 个 偏 导数 的 值 可 以 总 结 出 这 个 规律 : 损失 函数 对 卷 积 核 的 
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偏 导数 实际 上 就 是 输入 图 像 矩 阵 与 误差 矩阵 的 卷 积 : 


Tu T 
Xno Tz 
Xa Хз? 
Ta Ty 


其 中 , * 为 卷 积 运 


Хз Tu 
223 Ta 
Хзз Ли 
Ta Tu 


算 。 写 成 矩阵 形式 为 


д 
9 


У 4^ L = сопу (XY ,6 ) 
在 这 里 conv 为 卷 积 运算 , 卷 积 输 出 图 像 的 尺寸 刚好 和 卷 积 核 矩 阵 的 尺寸 相同 。 现 在 的 


问题 是 6° 怎么 得 到 。 
的 误差 得 到 ó, 


如 果 卷 积 层 后 面 是 全 连接 层 , 按 照 全 连接 层 的 方式 可 以 从 后 面 的 层 
如 果 后 面 接 的 是 池 化 层 , 处 理 的 方法 在 15. 2. 2 节 中 介绍 。 


接 下 来 要 解决 的 问题 是 怎样 将 误差 项 传播 到 前 一 层 。 卷 积 层 从 后 一 层 接收 到 的 误差 为 
6 ,尺寸 和 卷 积 输出 图 像 相同 ,传播 到 前 一 层 的 误差 为 6* ,尺寸 和 卷 积 输入 图 像 相同 。 同 


样 ,用 上 面 的 例子 。 假 设 已 经 得 到 了 6” ,现在 要 做 的 是 根据 这 个 值 计算 出 BE 。 


根据 定义 














D aL _ aL ax? 
: — © ID [n 
диў Ixy диў 
99-0 д1, aL Irj” 
Й aug? 229479 du? 
正 向 传播 时 的 卷 积 操作 为 
Tu Te Tn Tu 
ku kèz his b B 
ип Un Ta 22 Tz Tu D b 
| |- x |ka kee Ёз +| | 
из иг Хи 2802 Лз Хи b b 
ka ksz зз 
Ta Ty Ty Tu 


Tuku + riki + auks + 
xanka + хо ог + X23kzs + 
2з Ёз А 232 зг + ZasAss + b 
Taku + аго + Tki + 





хои T+ Tiki + tuki + 
Zuka 十 лоз Ёо + rakes + 
ECT EET 十 zakss +6 
Gay + әз + tuki + 









































Ё ka хә + зз оз + roka + zs kao 十 X34kzs + 
ааз 十 2а зг raskss Hb ranks: + raka rakss + b 
根据 定义 : 
бү? = am E ы Б xke (ий my = (2 25 (5 INS adis) (Qui my 
由 于 
un aan + Tiki + Tiki + taka + agg d 
Zkz + лз Ёз 十 ZazAsz + rasa + b 
因此 有 
дир _ 
aus N 
类 似 地 可 以 得 到 
ди А Juan диз» 0 
dea du 


А 
ТАА 
жож BRMBMH (355 





























从 而 有 
OP = (OP ku ) Син?) 

类 似 地 有 
диц k дир k диз 0 диз» 0 
[ET nid [ET Е Ixi LED 
BEY = (Р + OP kn ) f Qi) 
диц диг k диз 0 ди» 0 
Ix13 с Iziz 2d Ix13 дх\з 





HEY = (iP ks FOB kiz ) f Сиг?) 
AC? = (iP ы HP bu ) f Gf) 
a” = (BP kee +O kai +O kio +88 a ) f Cu) 
BEY = (BR ka +OP kaz +O kis + 88 kiz ) f Cu) 
剩 下 的 以 此 类 推 。 从 上 面 的 过 程 可 以 看 到 ,实际 上 是 将 OP 进行 扩充 (上 下 左右 各 扩 
充 2 个 0) 之 后 的 矩阵 和 卷 积 核 拭 阵 天 顺 时 针 旋 转 180* 的 矩阵 的 卷 积 , 即 














00 0 00 0 

00 0 000 £ k k 

0 0 д. ди 0 0 u ae 
x |kss kz ka 

0 0 дһ д 0 0 ee ok А 

бб б & 9 9 з ki ku 

00 0 000 


将 上 面 的 结论 推广 到 一 般 情况 ,可 得 到 误差 项 的 递 推 公式 为 
69-0 = 6 x rot180 (K)Of (ut) 
其 中 ,rot180 表示 矩阵 顺 时 针 旋 转 180 操作 。 至 此 根据 误差 项 得 到 了 卷 积 层 的 权重 、 偏 置 
项 的 偏 导数 ;并且 把 误差 项 通过 卷 积 层 传播 到 了 前 一 层 。 推 导 卷 积 层 反 向 传播 算法 计算 公 
式 的 另外 一 种 思路 是 把 卷 积 运算 转换 成 矩阵 乘法 ,这 种 做 法 更 容易 理解 ,在 15. 4. 1 节 与 
15. 7. 3 中 将 会 介绍 。 


15.2.2 AWE 


池 化 层 没 有 权重 和 偏 置 项 ,因此 ,无 须 计 算 本 层 参数 的 偏 导数 以 及 执行 梯度 下 降 更 新 操 

作 , 所 要 做 的 是 将 误差 传播 到 前 一 层 。 假 设 下 采样 层 的 输入 图 像 是 XO ,输出 图 像 为 X”， 
X? = down (X*”) 
其 中 ,down 为 下 采样 操作 ,在 正 向 传播 时 ,对 输入 数据 进行 了 降 维 。 在 反 向 传播 时 ,接受 的 
误差 是 6 ,尺寸 和 X"? 相 同 , 传 递 出 去 的 误差 是 6"? ,尺寸 和 XX“? 相同 。 和 下 采样 相反 ， 
我 们 用 上 采样 来 计算 误差 项 : 
б = up (6° ) 

其 中 ,up 为 上 采样 操作 。 如 果 是 对 *Xs 的 块 进行 的 池 化 ,在 反 向 传播 时 要 将 62 的 一 个 误 
差 项 值 扩展 为 67 2 的 对 应 位 置 的 >Xs 个 误差 项 值 。 下 面 分 别 对 均值 池 化 和 最 大 池 化 进行 
讨论 。 均 值 池 化 的 变换 函数 为 
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2: Б 
其 中 ,zi 为 池 化 操作 的 *X* 子 图 像 块 的 像素 ;> 是 池 化 输出 像素 值 。 假 设 损失 函数 对 输出 
像素 的 偏 导数 为 8, 则 对 输入 像素 的 偏 导数 为 
aL _ aL ду _ 1 


axi — ду дт; Sox's 
因此 ,由 5” 得 到 0"? 的 方法 为 ,将 862 的 每 一 个 元 素 都 扩充 为 *Xy 个 元 素 : 


y= 
































8 ... Š 
sx s sXs 
8 ... Š 
$ >Ç $ sXs 





再 看 第 二 种 情况 。 如 果 是 最 大 池 化 ,在 进行 正 向 传播 时 ,需要 记 住 最 大 值 的 位 置 。 在 反 
向 传播 时 ,对 于 扩充 的 *Xs* 块 ,最 大 值 位置 处 的 元 素 设 为 9, 其 他 位 置 全 部 置 为 0: 
Ü = © 
Ë mE 
$ ee 0 
同样 地 ,我 们 给 出 推导 过 程 。 假 设 池 化 函数 为 


у = maxCGr ,as ,** xi) = x, 


损失 函数 对 x: 的 偏 导数 为 





IL -IL Oy... dy 


Jx; dy x, ax; 


在 这 里 分 两 种 情况 ,如 果 ¿= :. WAS 








ay = 1 

да; 
否则 有 

ду _ 

9x, — 0 


至 此 ,得 到 了 卷 积 层 和 池 化 层 的 反 向 传播 实现 。 全 连接 层 的 反 向 传播 计算 方法 和 全 连 
接 神 经 网 络 相同 ,组 合 起 来 就 得 到 了 整个 卷 积 网 络 的 反 向 传播 算法 计算 公式 。 


15.2.3 ”随机 梯度 下 降 法 


在 第 9 章 中 介绍 过 ,神经 网 络 的 训练 有 单 样本 模式 和 批量 模式 两 种 方案 。 卷 积 神经 网 
络 的 训练 样本 数 一 般 很 大 ,大 多 采用 随机 梯度 下 降 法 (Stochastic Gradient Descent, SGD), 
随机 梯度 下 降 法 每 次 参与 梯度 下 降 迭 代 的 只 有 一 部 分 样本 ,这 称 为 Mini-Batch 随机 梯度 
下 降 。 

假设 训练 样本 集 有 N 个 样本 .神经 网 络 训练 时 优化 的 目标 是 这 个 数据 集 上 的 平均 损失 
ЮЖ: 


N 
Low) = 1 Lx, y + àr On) 
fv del 


其 中 ,LC(w,xi,y;) 是 对 单个 训练 样本 (x;,y;) 的 损失 函数 ,w 是 神经 网 络 需要 学 习 的 参数 ; 
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r(w) 是 正则 化 项 ;4 是 正则 化 项 的 权重 。 如 果 训 练 时 每 次 迭代 都 用 所 有 样本 ,计算 成 本 太 
高 ,作为 改进 可 以 在 每 次 迭代 时 选取 一 批 样本 ,将 损失 函数 定义 在 这 些 样 本 上 。 

批量 随机 梯度 下 降 法 在 每 次 迭代 中 使 用 上 面目 标 函 数 的 随机 荧 近 值 , 即 只 使 用 M<N 
个 样本 来 近似 计算 损失 函数 。 在 每 次 迭代 时 要 优化 的 目标 函数 变 为 


M 
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训练 时 在 正 向 传播 阶段 计算 损失 函数 值 ,在 反 向 传播 阶段 计算 参数 的 梯度 值 并 对 参数 
进行 更 新 。 参 数 的 更 新 值 由 优化 算法 根据 参数 的 梯度 计算 得 到 。 如 果 使 用 L2 正则 化 , 正 
则 化 项 的 梯度 为 w, 如 果 使 用 11 正则 化 ,正则 化 项 的 梯度 为 sgn(w)。 为 了 加 快 算法 的 收 
但 ,一 般 还 会 使 用 动量 项 。 已 经 证 明 "” 中 ,随机 梯度 下 降 法 在 数学 期 望 的 意义 下 收敛 , 即 
随机 采样 产生 的 梯度 的 期 望 值 是 真实 的 梯度 。 

实现 时 ,可 以 将 上 面 的 损失 函数 看 成 是 对 单个 样本 的 损失 函数 之 和 ,然后 取 均 值 。 因 
此 ,可 以 先 对 单个 样本 计算 每 一 层 的 误差 项 和 梯度 值 ,然后 取 它们 的 均值 。 具 体 做 法 是 ,在 
正 向 传播 阶段 ,对 多 个 样本 进行 正 向 传播 ,并 记录 网 络 每 一 层 的 输出 值 。 在 反 向 传播 阶段 ， 
对 于 每 一 层 , 计 算 对 单个 样本 的 梯度 值 。 整 个 梯度 值 是 参与 迭代 的 样本 梯度 值 的 均值 。 


1524 ”迁移 学 习 


在 机 器 视觉 中 有 一 些 特征 具有 共性 ,它们 对 各 种 物体 的 识别 具有 普遍 性 ,如 边缘 、 角 点 、 
纹理 特征 ,因此 , 卷 积 神经 网 络 学 习 得 到 的 特征 可 能 会 具有 通用 性 。 这 一 特点 启发 人 们 思考 
这 个 问题 : 能 不 能 将 一 个 数据 集 上 训练 的 网 络 用 于 另外 一 个 任务 ? 直接 把 这 个 网 络 拿 来 用 
显然 不 是 好 的 做 法 ,可 以 把 这 个 网 络 的 参数 作为 训练 的 初始 值 ,在 新 的 任务 上 继续 训练 ,这 
种 做 法 称 为 Fine-Tune, 即 网 络 微 调 。 

大 量 的 实验 结果 和 应 用 结果 证 明 , 这 种 微调 是 有 效 的 。 这 说 明 卷 积 神经 网 络 在 一 定 程 
度 上 具有 迁移 学 习 的 能 力 , 卷 积 层 学 习 到 的 特征 具有 通用 性 。VGG 网 络 在 ImageNet 数据 
集 上 的 训练 结果 在 进行 微调 之 后 ,被 广泛 应 用 于 目标 检测 、 图 像 分 割 等 任务 ,在 后 面 会 详细 
介绍 。 


15.3 ”典型 网 络 


前 面 讲述 了 卷 积 神经 网 络 的 一 般 结构 , 接 下 来 介绍 历史 上 出 现 的 几 种 经 典 的 网 络 结构 。 
15.3.1 LeNet-5 网 络 


LeNet-5 网 络 中 由 LeCun 在 1998 年 提出 ,这 是 第 一 个 广 为 传播 的 卷 积 网 络 , 用 于 手写 
文字 的 识别 ,此 后 各 种 卷 积 网 络 的 设计 都 借鉴 了 它 的 思想 。 网 络 的 结构 如 图 15. 3 所 示 。 

整个 网 络 的 输入 为 32 像素 X32 像素 的 单 通道 灰 度 图 像 。 第 一 个 卷 积 层 Cl 作用 于 输 
人 和 人 图像, 使 用 6 个 5 像素 X5 像素 的 卷 积 核 ,得 到 6 张 28 像素 X28 像素 的 特征 图 像 。 第 二 
层 是 池 化 层 S2 ,对 输入 图 像 进行 2 像素 X2 像素 的 池 化 ,得 到 6 张 14 像素 X14 像素 的 
图 像 。 

第 三 层 是 C3 卷 积 层 , 使 用 16 个 5 像素 X5 像素 的 卷 积 核 ,通过 卷 积 操作 得 到 16 张 10 
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15.3 LeNet 的 结构 


像素 X10 像素 的 输出 图 像 。 这 一 层 的 每 个 卷 积 核 作用 于 S2 层 输出 图 像 的 部 分 通道 。 

第 四 层 是 池 化 层 S4 ,对 Сз 的 图 像 做 2 像素 X2 像素 的 池 化 ,得 到 16 张 5 像素 X5 像素 
的 图 像 。 第 五 层 是 卷 积 层 C5 , 卷 积 核 的 大 小 仍然 是 5 像素 X5 像素 ,一 共 120 个 ,每 个 卷 积 
核 作 用 于 上 一 层 的 所 有 图 像 ,得 到 120 个 1 像素 X1 像素 的 图 像 。 

第 六 层 是 全 连接 层 F6, 有 84 个 神经 元 ,每 一 个 神经 元 与 上 一 层 的 每 个 神经 元 连接 。 最 
后 一 层 是 输出 层 , 有 10 个 神经 元 ,代表 0 一 9 这 10 个 数字 。 

激活 函数 统一 采用 tanh; 损 失 函 数 采用 欧 氏 距离 损失 函数 。 求 解 算法 采用 梯度 下 降 
法 。 训 练 样本 的 类 别 标签 采用 向 量 编码 形式 ,这 种 方法 在 第 9 章 中 讲述 过 。 在 预测 时 ,比较 
输出 层 的 每 一 个 分 量 的 值 , 取 最 大 的 那个 作为 最 终 的 类 别 。 


15.3.2 AlexNet 网 络 


由 于 计算 能 力 和 训练 样本 数 的 限制 ,网 络 层 数 增加 带 来 的 梯度 消失 等 问题 的 困扰 ,在 提 
出 后 的 20 多 年 内 卷 积 神经 网 络 并 没有 得 到 大 规模 的 应 用 。 直 到 2012 年 , Hinton 等 人 设计 
出 一 个 称 为 AlexNet 的 深层 卷 积 神经 网 络 中 ,在 图 像 分 类 任务 上 取得 了 成 功 。 此 后 卷 积 神 
经 网 络 被 广泛 用 于 机 器 视觉 中 的 各 种 任务 ,成 为 解决 很 多 图 像 问题 的 主流 方法 。 

AlexNet 网 络 有 5 个 卷 积 层 ,它们 中 的 一 部 分 后 面 接着 max 池 化 层 ;3 个 全 连接 层 。 最 
后 一 层 是 softmax 输出 层 , 共 有 1000 个 节点 ,对 应 1000 个 图 像 类 。 在 实现 时 , 卷 积 操作 用 
GPU 来 计算 ,以 提高 处 理 速度 。 

这 个 网 络 有 两 个 主要 的 创新 点 : 新 的 激活 函数 ,dropout 机 制 。dropout 的 做 法 是 在 训 
练 时 随机 地 选择 一 部 分 神经 元 进行 正 向 传播 和 反 向 传播 ,另外 一 些 神经 元 的 参数 值 保持 不 
变 , 以 减轻 过 拟 合 。 文献 [97] 对 这 一 机 制 进行 了 更 深入 的 分 析 。dropout 机 制 使 得 每 个 神 
经 元 在 训练 时 只 用 了 样本 集中 的 部 分 样本 ,这 相当 于 对 样本 集 进行 采样 , 即 bagging 的 做 
法 。 最 终 得 到 的 是 多 个 神经 网 络 的 组 合 ,但 这 不 是 一 种 严格 的 解释 。 

网 络 的 输入 为 224 像素 X224 像素 的 彩色 图 像 。 第 一 个 卷 积 层 有 96 个 11 像素 X11 像 
素 的 卷 积 核 , 卷 积 操作 的 步 长 为 4。 这 里 的 卷 积 核 是 多 通道 的 ,具体 实现 时 用 3 个 二 维 的 卷 
积 核 分 别 作用 在 RGB 通道 上 ,然后 将 3 张 结 果 图 像 相 加 。 这 个 卷 积 层 后 面 是 池 化 层 , 其 他 
的 卷 积 层 结构 类 似 ,在 这 里 不 再 详细 介绍 。 

这 个 网 络 的 第 二 个 创新 是 没有 使 用 传统 的 sigmoid 或 tanh 函数 作为 激活 函数 ,而 是 使 


用 了 新 型 的 ReLU FA? ; 
ReLU(x) = max(0, x) 
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其 导数 为 кас) | b: M ReLU 函数 和 它 的 导数 计算 简单 ,在 正 向 传播 和 


反 向 传播 时 都 减少 了 计算 量 。 由 于 在 a > 0 时 导数 值 为 1, 可 以 在 一 定 程度 上 缓解 梯度 消失 
问题 ,训练 时 有 更 快 的 收敛 速度 。 当 >< 时 函数 值 为 0, 这 使 一 些 神经 元 的 输出 值 为 0, 从 
而 让 网 络 变 得 更 稀 琉 ,起 到 正则 化 的 作用 ,也 可 以 在 一 定 程度 上 缓解 过 拟 合 。 


15.33 VGG MA 


VGG 网 络 由 牛津 大 学 视觉 组 提出 5 ,被 广泛 地 应 用 于 视觉 领域 的 各 类 任务 。 这 个 网 
络 的 主要 创新 是 采用 了 小 尺寸 卷 积 核 。 所 有 卷 积 层 都 使 用 3 像素 X 3 像素 的 卷 积 核 , 且 卷 
积 步 长 为 1。 为 了 保证 卷 积 后 的 图 像 大 小 不 变 , 对 图 像 进 行 了 填充 ,四 周 各 填充 1 像素 。 所 
有 池 化 层 都 采用 2 像素 X2 像素 的 核 , 步 长 为 2。 除 了 最 后 一 个 全 连接 层 之 外 ,所 有 层 都 采 
用 了 ReLU 激活 函数 。 

用 2 个 相连 的 3 像素 X3 像素 卷 积 核 可 以 实现 5 像素 X5 像素 的 卷 积 核 ;用 3 个 相连 的 
3 像素 X3 像素 卷 积 核 可 以 实现 7 像素 X7 像素 的 卷 积 核 。 小 卷 积 核 有 更 少 的 参数 ,能 够 加 
速 网 络 的 训练 和 计算 ,同时 可 以 减轻 过 拟 合 问题 。 两 个 3 像素 X3 像素 的 卷 积 核 有 18 个 参 
数 (不 考虑 偏 置 项 ) ,而 一 个 5 像素 X5 像素 卷 积 核 有 25 个 参数 ,其 他 的 以 此 类 推 。 

作者 设计 了 6 种 不 同 层 数 的 网 络 ,这 些 网 络 编号 从 A 到 下 ,其 中 ,A-LRN 是 A 的 扩充 
版 。 表 15.1 是 VGG 网 络 结构 。 

表 15.1 VGG 网 络 结构 
































网 络 配 置 
A A-LRN B c D E 
11 个 带 权 重 层 | 11 个 带 权重 层 | 13 个 带 权重 层 | 16 个 带 权重 层 | 16 个 带 权重 层 | 19 个 带 权重 层 
输入 层 
conv3-64 conv3-64 conv3-64 conv3-64 conv3-64 
conv3-64 
LRN conv3-64 conv3-64 conv3-64 conv3-64 
最 大 池 化 
-12; " E: ® 
conv3-128 sonvicios conv3-128 conv3-128 conv3-128 conv3-128 
conv3-128 conv3-128 conv3-128 conv3-128 
最 大 池 化 
conv3-256 
conv3-256 conv3-256 
conv3-256 conv3-256 conv3-256 conv3-256 
conv3-256 conv3-256 
conv3-256 conv3-256 conv3-256 conv3-256 
conv1-256 conv3-256 
conv3-256 
最 大 池 化 
3-512 3-512 conv3-512 
conv3-512 conv3-512 conv3-512 eae € conv3-512 
conv3-512 conv3-512 
conv3-512 conv3-512 conv3-512 conv3-512 
conv1-512 conv3-512 
conv3-512 
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网 络 配置 
А A-LRN B С р Е 
11 个 带 权重 层 | 11 个 带 权 重 层 | 13 个 带 权重 层 | 16 个 带 权重 层 16 个 带 权重 层 | 19 个 带 权重 层 
最 大 池 化 
conv3-51 

conv3-512 conv3-512 om 

conv3-512 conv3-512 conv3-512 conv3-512 

conv3-512 conv3-512 conv3-512 аа КЕ conv3-512 

` convl-512 conv3-512 

conv3-512 
最 大 池 化 
ЕС-4096 
ЕС-4096 
ЕС-1000 
soft-max 


实验 证 明 , 增 加 网 络 的 深度 能 够 提高 精度 。VGG 网 络 被 广泛 用 于 其 他 问题 ,包括 人 脸 
识别 .目标 检测 、 图 像 分 割 等 ,在 15. 8 节 中 会 详细 介绍 。 


15.3.4 GoogLeNet 网 络 


在 AlexNet 网 络 出 现 之 后 ,针对 图 像 类 任务 出 现 了 大 量 改进 的 网 络 结构 ,其 中 的 一 种 
思路 是 增 大 网 络 的 规模 ,包括 深度 和 宽度 。 但 是 直接 增加 网 络 的 规模 将 面临 两 个 问题 : 首 
先 ,网 络 参 数 增加 之 后 更 容易 出 现 过 拟 合 ,在 训练 样本 有 限 的 情况 下 这 一 问题 更 为 明显 ;其 
次 ,是 计算 量 的 增加 。GoogLeNetc9 致 力 于 解决 上 面 两 个 问题 。 

GoogLeNet 由 Google 公司 提出 ,主要 创新 是 Inception 机 制 , 它 对 图 像 进行 多 尺度 处 
理 。 这 种 机 制 带 来 的 一 个 好 处 是 大 幅度 减少 了 模型 的 参数 数量 ,其 做 法 是 将 多 个 不 同 尺 度 
的 卷 积 核 、 池 化 进行 整合 ,形成 一 个 Inception 模块 。 最 简单 的 Inception 模块 结构 如 图 15. 4 
所 示 。 





15.4 一 个 简单 的 Inception 模块 
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图 15. 4 的 模块 由 3 组 卷 积 核 和 一 个 池 化 单元 组 成 ,它们 共同 接纳 来 自前 一 层 的 输入 图 
像 , 在 这 里 有 3 种 尺寸 的 卷 积 核 ,以 及 一 个 最 大 池 化 操作 ,它们 并 行 地 对 输入 图 像 进 行 处 理 ， 
然后 将 输出 结果 按照 通道 拼接 起 来 。 因 为 卷 积 操作 接纳 的 输入 图 像 大 小 相等 ,而 且 卷 积 进 
行 了 padding 操作 ,因此 ,输出 图 像 的 大 小 也 相同 ,可 以 直接 按照 通道 进行 拼接 。 需 要 注意 
的 是 ,要 保证 池 化 操作 后 的 尺寸 不 减 小 ,必须 采用 步 长 为 1 的 池 化 。 

从 理论 上 看 ,Inception 模块 的 目标 是 用 尺寸 更 小 的 矩阵 来 替代 大 尺寸 的 稀疏 矩阵 , 即 
用 一 系列 小 的 卷 积 核 来 蔡 代 大 的 卷 积 核 ,而 保证 二 者 有 近似 的 性 能 。 

图 15. 4 的 卷 积 操作 中 ,如 果 输 入 图 像 的 通道 数 太 多 , 则 运算 量 太 大 ,而 且 卷 积 核 的 参数 
太 多 ,因此 ,有 必要 进行 数据 降 维 。 图 15. 5 是 加 上 降 维 操作 后 的 Inception 模块 。 
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图 15.5 具有 降 维 功能 的 Inception 模块 


在 图 15. 5 中 , 除 1 像素 X1 像素 卷 积 之 外 ,所 有 的 卷 积 和 池 化 操作 都 使 用 了 1 像素 X1 
像素 卷 积 进行 降 维 , 即 降低 图 像 的 通道 数 。 因 为 1 像素 X1 像素 卷 积 不 会 改变 图 像 的 高 度 
和 宽度 ,只 会 改变 通道 数 。 


15.4 理论 分 析 


卷 积 网 络 一 般 有 很 深 的 层次 ,要 对 它 进行 严格 的 分 析 比 较 困 难 。 与 卷 积 网 络 的 应 用 和 
设计 相 比 ,对 它 的 理论 和 和 运行 机 理 分 析 与 解释 相对 较 少 。 如 果 我 们 能 分 析 卷 积 网 络 的 运行 
机 理 , 把 卷 积 操作 可 视 化 地 显示 出 来 ,无论 是 对 于 理解 卷 积 网 络 , 还 是 对 于 网 络 的 设计 都 具 
有 重要 的 意义 。 文 献 [29-31] 在 这 方面 进行 了 探索 。 
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卷 积 操 作 可 以 转化 为 矩阵 乘法 来 实现 ,下 面 用 一 个 简单 的 例子 进行 说 明 。 假 设 卷 积 输 
入 图 像 为 


А 
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卷 积 核算 阵 为 
ku Al his 
ka Ёз Ёз 
ka Ёз зз 
首先 将 图 像 和 卷 积 核 都 转换 为 矩阵 形式 。 图 像 按 行 拼接 形成 列 向 量 х: 
[zu Tiz Tis Ти Ta Tz 2з Tu Ха Хз Tz Хз Та Ta Ta za]. 
为 了 与 卷 积 操作 相 适 应 ,将 卷 积 核 进行 如 下 展开 形成 矩阵 С. 
ku Kus kis 0 ka kz Ёз 0 ka kz Ёз 0 0 0 0 0 
O ku Riz ks 0 ka kz ka 0 ka ks ka 0 0 0 0 
0 0 0 O Ru ps kis O ka kz ka 0 ka Ёз аз 
0 0 0 0 0 ln ke ks O ka ku Ёз O ka Rx Rs 
显然 这 个 矩阵 中 的 数据 有 宛 余 , 卷 积 核 中 有 些 元 素 在 这 个 矩阵 中 出 现 了 多 次 ,这 是 因为 
卷 积 核 要 作用 于 图 像 的 多 个 位 置 。 这 样 可 以 将 卷 积 运算 转换 成 矩阵 乘法 : 








© 


y=Cx 
在 反 向 传播 时 已 知 梯度 Vv ,L ,要 得 到 VvV „1..{Е 9.2. 2 节 中 已 经 推导 过 ,这 种 复合 函数 的 
求 导 公 式 为 
у, = CTV ,L 


这 就 是 卷 积 和 矩阵 的 转 置 与 传人 的 误差 项 的 乘积 。 由 此 可 以 得 到 如 下 结论 : 正 向 传播 
时 , 卷 积 层 是 用 卷 积 和 矩阵 C 与 图 像 向 量 x 相 乘 ; 反 向 传播 时 ,是 用 卷 积 矩 阵 的 转 置 与 传人 的 
误差 向 量 相 乘 ,将 误差 项 传播 到 前 一 层 。 

反 卷 积 也 称 为 转 置 卷 积 呈 5 , 它 的 操作 刚好 和 这 个 过 程 相反 , 正 向 传播 时 左 乘 矩 阵 СТ, 
反 向 传播 时 左 乘 矩 阵 C。 这 里 的 反 卷 积 和 信号 处 理 里 的 反 卷 积 是 两 个 不 同 的 概念 , 它 只 能 
得 到 和 原始 输出 图 像 尺 寸 相同 的 图 像 , 并 不 是 卷 积 运算 的 逆 运 算 。 反 卷 积 运算 有 一 些 实际 
的 用 途 , 包 括 接 下 来 要 介绍 的 卷 积 网 络 可 视 化 ;全 卷 积 网 络 中 的 上 采样 操作 。 反 卷 积 运算 通 
过 对 卷 积 运算 得 到 的 输出 图 像 y 左 乘 卷 积 矩阵 的 转 置 C7 ,可 以 得 到 和 原始 图 像 尺 寸 x 相同 
的 图 像 。 


15.4.2” 卷 积 层 可 视 化 


文献 [24] 设 计 了 一 种 用 反 卷 积 进行 卷 积 层 可 视 化 的 方案 。 具 体 做 法 是 ,将 卷 积 网 络 学 
习 到 的 特征 图 像 左 乘 得 到 这 些 特征 图 像 的 卷 积 核 的 转 置 矩阵 ,将 图 像 从 特征 图 像 空间 转换 
到 原始 的 像素 空间 ,以 发 现 是 哪些 像素 激活 了 特定 的 特征 图 像 , 达 到 分 析 卷 积 网 络 的 目的 。 

对 于 卷 积 层 , 反 卷 积 运算 使 用 正 向 传播 的 卷 积 核 的 转 置 矩阵 对 特征 图 像 进行 卷 积 ,将 特 
征 图 像 还 原 到 原始 的 像素 图 像 空间 得 到 重 构 的 图 像 。 通 过 反 卷 积 操 作 得 到 卷 积 核 的 可 视 化 
图 像 如 图 15.6 所 示 。 
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图 15.6 卷 积 核 的 可 视 化 (来 自 文献 [24]) 


实验 表明 ,前 面 的 层 提取 的 特征 比较 简单 , 越 往 后 的 卷 积 层 提取 的 特征 越 复杂 ,这 符合 
人 们 对 卷 积 神经 网 络 的 设计 初衷 , 即 通过 多 层 卷 积 完成 对 图 像 的 逐 层 特征 提取 。 

男 一 种 分 析 卷 积 网 络 机 制 的 思路 是 根据 卷 积 结果 图 像 重 构 出 输入 图 像 。 文 献 [26] 设 计 
了 一 种 方法 ,用 卷 积 网 络 提取 出 来 的 特征 反 过 来 重 构图 像 来 观察 卷 积 网 络 的 能 力 。 即 由 卷 
积 网 络 编码 后 的 向 量 近似 重 构 原 始 输入 图 像 。 具 体 做 法 是 给 定 卷 积 网 络 编码 后 的 向 量 , 寻 
找 一 张 图 像 ,这 张 图 像 通过 卷 积 网 络 编码 之 后 的 向 量 与 给 定向 量 最 匹配 。 

假设 输入 图 像 高 度 为 Н.Ж EE у W , 通 道 数 为 C, 卷 积 网 络 输出 的 向 量 为 a 维 。 卷 积 网 
络 完成 的 映射 为 

RPC R’ 

给 定 一 张 图 像 的 输出 向 量 Do ,算法 要 对 它 进行 反 向 表示 寻找 输入 图 像 x, 它 是 如 下 最 优 

化 问题 的 解 : 
x' = arg miner? wxc L (P(x) .B)) + AR (x) 

损失 函数 用 于 比较 重 构图 像 的 输出 向 量 和 真实 图 像 的 输出 向 量 。R 是 正则 化 项 ,用 于 

捕捉 自然 图 像 的 先 验 知识 。 损 失 函 数 直 接 采用 欧 氏 距离 : 
1,‹Ф(х).Ф,) = || B(x) — Ф, || ° 
正则 化 项 由 两 部 分 组 成 ,分 别 为 范 数 部 分 和 总 变化 部 分 。 范 数 部 分 定义 为 
R(x) = al: 
总 变化 部 分 由 图 像 在 水 平和 垂直 方向 的 偏 导 数 构造 ， 
Rw (x) = У) [Gun —хы)* + (хы 725) JË 
其 中 ,8 是 一 个 大 于 0 的 实数 ,不 同 的 取 值 可 以 达到 不 同 的 效果 。 最 后 要 优化 的 目标 函数 为 
L(x) = || Blox) — Ф, || 3/ || Ф || š + AR, GO БАК (x) 

其 中 ,c 是 训练 样本 集中 所 有 自然 图 像 的 欧 几 里 得 范 数 的 均值 ,Ma 和 hv 是 人 工 设 定 的 参数 。 
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在 实验 中 作者 发 现 ,虽然 这 种 优化 方法 很 简单 ,但 是 重 构 效 果 很 好 。 
1543 ”理论 解释 


对 卷 积 网 络 的 解释 和 分 析 来 自 两 个 方面 。 第 一 种 是 数学 角度 ,对 网 络 的 表示 能 力 、 映 射 
特性 的 数学 分 析 ; 第 二 种 是 卷 积 网 络 和 视觉 系统 关系 的 研究 ,分 析 二 者 的 关系 有 助 于 理解 、 
设计 更 好 的 方法 ,同时 也 促进 了 神经 科学 的 进步 。 

文献 [25] 从 数学 角度 对 深层 卷 积 网 络 进行 了 分 析 。 在 这 里 ,作者 将 卷 积 网 络 看 作 是 用 
一 组 级 联 的 线性 加 权 滤 波 器 和 非 线 性 函数 对 数据 进行 散射 。 通 过 对 这 一 组 函数 的 压缩 
(Contraction) 和 分 割 (Separation) 特 性 进行 分 析 来 解释 深度 卷 积 网 络 的 建 模 能 力 。 在 这 里 ， 
分 割 是 指 对 空间 的 划分 。 另 外 还 解释 了 深度 神经 网 络 的 迁移 特性 。 卷 积 网 络 的 卷 积 操作 分 
为 两 步 : 第 一 步 是 线性 变换 ;第 二 步 是 激活 函数 变换 。 前 者 可 以 看 成 是 将 数据 线性 投影 到 
更 低 维 的 空间 ;后 者 是 对 数据 的 压缩 非 线性 变换 。 

多 层 卷 积 网 络 与 人 脑 视觉 系统 的 关系 对 于 卷 积 网 络 的 解释 和 设计 有 重要 的 意义 ,这 分 
为 两 个 层面 的 问题 。 第 一 个 问题 ,深度 卷 积 神经 网 络 是 否 能 够 取得 和 视觉 神经 系统 相似 的 
性 能 , 即 二 者 能 力 的 对 比 。 第 二 个 问题 ,二 者 在 结构 上 是 否 具有 一 致 性 ,这 是 从 系统 结构 上 
分 析 二 者 的 关系 。 

文献 [91] 对 第 一 个 问题 进行 了 分 析 , 文 献 作者 验证 了 深度 神经 网 络 可 以 取得 和 灵 长 类 
动物 视觉 IT 皮层 相同 的 性 能 。 视 觉 神 经 系统 在 物体 样 例 变化 .几何 变换 .背景 变化 的 情况 
下 仍然 可 以 达到 很 高 的 识别 性 能 ,这 主要 得 利于 下 甄 叶 (IT) 皮 层 的 表示 能 力 。 通 过 深度 卷 
积 神经 网 络 训练 的 模型 ,在 物体 识别 问题 上 同样 达到 了 很 高 的 性 能 。 作 者 用 扩展 的 核 分 析 
技术 对 深度 神经 网 络 和 IT 皮层 进行 了 比较 。 这 种 技术 将 模型 的 泛 化 误差 作为 表示 复杂 度 
的 函数 。 分 析 结 果 表 明 ,深度 神经 网 络 在 视觉 目标 识别 任务 上 可 以 达到 大 脑 IT 皮层 的 表 
示 能 力 。 

文献 [92] 也 分 析 了 深层 神经 网 络 与 视觉 神经 之 间 的 对 应 关系 。 文 献 作 者 利用 目标 驱动 
的 深度 学 习 模 型 来 理解 大 脑 的 视觉 皮层 。 具 体 的 思路 是 用 目标 驱动 的 分 层 卷 积 神经 网 络 
(HCNNs) 对 视觉 皮层 区 中 单个 单元 和 群体 的 输出 响应 进行 建 模 。 这 种 手段 建立 起 了 深层 
神经 网 络 和 大 脑 感知 皮层 的 对 应 关系 ,能 够 帮助 人 们 理解 视觉 皮层 的 机 理 。 从 另 一 角度 看 ， 
也 找到 了 深度 神经 网 络 在 神经 科学 上 的 对 应 点 。 

在 第 9 章 中 介绍 过 ,全 连接 神经 网 络 的 分 层 拓 扑 结构 远 比 大 脑 的 神经 网 络 拓扑 结构 简 
单 ; 反 向 传播 算法 在 人 脑 中 也 没有 对 应 的 机 理 。 探 寻 目 前 这 些 神经 网 络 结构 以 及 反 向 传播 
算法 之 外 的 网 络 结构 对 神经 网 络 也 有 非常 重要 的 意义 。 文 献 [93] 提 出 了 一 种 新 的 网 络 连 接 
方式 ,使 用 胶 守 (Capsule) 来 组 织 神经 网 络 。 在 这 里 , 胶 先 是 指 一 组 神经 元 ,它们 共同 作用 产 
生 一 个 输出 向 量 。 胶 寺内 的 神经 元 的 活跃 性 代表 了 图 像 中 某 一 个 实体 的 不 同 视觉 特征 。 这 
些 特性 有 各 种 不 同类 型 的 实例 化 参数 ,如 物体 的 位 置 . 尺 寸 、 朝 向 、 运 动 速 度 、 纹 理 等。 在 这 
里 有 一 个 特殊 的 特征 ,就 是 图 像 中 是 否 存 在 本 物体 。 物 体 是 否 存 在 的 概率 用 向 量 的 长 度 来 
表示 。 

在 训练 和 预测 时 ,各 个 胶 赛 的 信息 交换 使 用 了 一 种 称 为 动态 路 由 的 机 制 。 初 始 时 ,一 个 
胶 歧 会 将 它 的 输出 信息 送 入 每 一 个 父 节点 。 胶 歧 将 它 的 预测 向 量 乘 以 一 个 权重 矩阵 ,然后 
送 入 它 的 父 节 点 。 如 果 这 个 预测 向 量 和 一 个 父 节 点 的 输出 向 量 的 内 积 很 大 , 则 本 胶 赛 会 收 
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到 来 自 这 个 父 节 点 的 自 上 而 下 的 反馈 ,增加 它们 的 耦合 系数 ,并 降低 和 其 他 父 节 点 的 耦合 
系数 。 

首先 定义 每 个 胶 喜 的 输入 和 输出 。 第 7 个 胶 宫 的 输出 向 量 通过 对 它 的 输入 向 量 进 行 挤 
压 得 到 ,计算 公式 为 


"ES 


5; 
^ 1+ Is П H sl 
其 中 ,s; ЖЕЕ) Н ЛАМ. RSE 512 УБ. ИТ J: B) ie 6 0) i di A IB] ht e Z F CW 8) 
ЈА ft Pr 41 БЕЖЕН I] ht a, ЛШ AAT HU In] ht ñ E E B — J B) 2 8E 09 4 ШШ u, 乘 上 
一 个 权重 矩阵 得 到 。 计 算 公 式 为 


s= Dies B 
i 


йз = Ws ü, 
其 中 ,cr ЭЙ Ж 3.38 pl aJ SR h ЖЕРЕ ЛЕ. 238 ;与 它 的 上 一 层 的 所 有 胶 吉 之 间 的 耦合 
系数 之 和 为 1。 这 通过 对 by 进行 路 由 softmax ЛЕЙ (3:81. Horn o; Jg zd ; 53 3j 进行 耦 
合 的 对 数 先 验 概率 。 对 数 先 验 概率 和 其 他 权重 一 起 通过 学 习 得 到 。 


15.5 挑战 与 改进 措施 


自 AlexNet 网 络 出 现 之 后 ,各 种 改进 的 卷 积 网 络 不 断 被 提出 。 这 些 改进 主要 在 以 下 几 
个 方面 进行 : 卷 积 层 、 池 化 层 ,激活 函数 .损失 函数 .网络 结构 ,在 本 节 中 将 分 别 进行 介绍 。 

随 着 深度 的 增加 ,全 连接 网 络 的 训练 变 得 更 困难 , 卷 积 网 络 也 面临 同样 的 问题 。 文 献 
[6] 对 这 一 问题 进行 了 分 析 和 验证 。 在 实验 中 ,作者 分 别 训 练 了 有 1 一 5 个 隐 含 层 的 神经 网 
络 ,激活 函数 使 用 了 sigmoid,tanh 和 softsign。 实 验 结果 证 明 , 随 着 网 络 层 数 的 增加 , 反 向 
传播 的 作用 越 来 越 小 ,网 络 更 加 难以 训练 ,作者 对 原因 进行 了 分 析 。 针 对 深层 网 络 难以 训练 
的 问题 有 一 些 解决 方案 ,典型 的 代表 是 高 速 公路 网 络 \ 残 差 网 络 .LSTM 等 ,在 本 节 和 第 16 
章 中 将 详细 介绍 。 
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对 卷 积 层 的 改进 目前 有 两 种 典型 的 方案 ,分 别 是 Network In Network (NIN) 和 
Inception 机 制 , 后 者 在 之 前 已 经 介绍 过 ,在 这 里 重点 介绍 NIN 机 制 。 

NINES 的 思想 是 用 一 个 小 规模 的 神经 网 络 蔡 代 卷 积 层 的 线性 滤波 器 ,小 型 网 络 是 一 个 
多 层 感 知 器 网 络 , 它 比 线性 卷 积 运算 有 更 强 的 能 力 。 

卷 积 核 的 大 小 和 数量 如 何 确定 也 是 实际 应 用 时 需要 考虑 的 问题 。 在 LeNet-5 中 使 用 了 
5 像素 X5 像素 的 卷 积 核 ,在 AlexNet 中 使 用 了 多 种 不 同 尺寸 的 卷 积 核 ,现在 趋向 于 用 小 卷 积 核 。 

一 种 特殊 的 卷 积 核 大 小 为 1 像素 X1 像素 ,由 于 在 执行 卷 积 时 每 个 像素 不 利用 周围 像 
素 的 信息 ,因此 , 它 只 在 通道 上 进行 卷 积 ,相当 于 对 多 个 输入 通道 进行 加 权 平 均 。 这 种 卷 积 
不 会 改 图 像 的 高 度 和 宽度 ,只 改变 通道 数 。 它 被 用 于 全 卷 积 网 络 , 以 及 通道 降 维 。 


15.5;2” 池 化 层 
之 前 介绍 的 池 化 有 均值 和 最 大 值 两 种 方案 ,也 可 以 采用 更 复杂 的 策略 。 典 型 的 有 L-P 
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池 化 混合 池 化 、 随 机 池 化 ,以 及 Spatial Pyramid Pooling(SPP). SPP 的 原理 在 15. 8. 2 45 
进行 介绍 。 


155.3 激活 函数 


激活 函数 的 作用 是 给 神经 网 络 加 入 非 线 性 ,因此 , 它 必须 是 非 线 性 函数 。 由 于 使 用 
梯度 下 降 法 时 需要 对 目标 函数 求 导 ,因此 ,激活 函数 必须 是 可 导 的 。 实 际 应 用 时 并 不 要 
求 它 在 定义 域内 处 处 可 导 , 只 要 是 几乎 处 处 可 导 ( 即 不 可 导 点 为 有 限 个 ,或 者 无 限 可 列 
个 ) 即 可 。 这 是 因为 激活 函数 的 输入 值 是 一 个 浮 点 数 ,可 以 看 作 是 一 个 随机 变量 , 它 落 在 
不 可 导 点 的 概率 为 0。 因为 连续 型 随机 变量 取 有 限 个 或 无 限 可 列 个 值 的 概率 为 0。 如 果 


一 个 激活 函数 满足 
limo f (z) = 0 

即 在 正 半 轴 函 数 的 导数 趋向 于 0, 则 称 该 函数 右 饱 和 。 如 果 满 足 
limf a) = 0 


即 在 负 半 轴 函 数 的 导数 趋向 于 0, 则 称 该 函数 左 饱和 。 如 果 一 个 激活 函数 既 满足 左 饱和 又 
满足 右 饱和 , 称 之 为 饱和 。 如 果 存 在 常数 c, 当 zc 时 有 
f(z) = 0 

则 称 函 数 右 硬 饱和 。 类 似 地 可 以 定义 左 硬 饱 和 。 既 满足 左 硬 饱 和 又 满足 右 硬 饱和 的 激活 函 
数 为 硬 饱和 函数 。 饱 和 性 和 梯度 消失 问题 有 关 。 在 反 向 传播 过 程 中 ,误差 项 在 每 一 层 都 要 
乘 以 激活 函数 的 导数 值 , 如 果 激 活 函 数 的 输入 值 落 入 饱和 区 间 , 多 次 乘积 之 后 会 导致 梯度 的 
绝对 值 越 来 越 小 ,从 而 出 现 梯度 消失 问题 。 显 然 ,sigmoid 函数 和 tanh 函数 都 是 饱和 函数 ， 
因此 容易 产生 梯度 消失 问题 。 

ReLU 函数 在 深度 卷 积 神经 网 络 中 得 到 了 广泛 使 用 , 它 的 导数 计算 很 简单 ,而 且 由 于 在 
正 半 轴 导数 为 1, 有 效 地 缓解 了 梯度 消失 问题 。 在 ReLU 的 基础 上 又 出 现 了 各 种 新 的 激活 
函数 ,包括 ELU、PReLU 等 。 更 多 的 激活 函数 将 在 15. 7.6 节 中 详细 讲述 。 


1554 损失 函数 


损失 函数 定义 了 神经 网 络 的 优化 目标 。 全 连接 神经 网 络 一 般 使 用 的 是 欧 氏 距 离 和 交叉 
恼 。 卷 积 网 络 在 用 于 各 种 不 同 的 任务 时 ,根据 问题 的 特点 产生 了 各 种 类 型 的 损失 函数 ,甚至 
有 同时 完成 多 个 任务 的 复杂 损失 函数 , 称 为 多 任务 损失 函数 。 在 15. 8 节 中 将 会 介绍 一 些 多 
任务 损失 函数 ,在 15.7.7 节 中 将 会 详细 介绍 各 种 损失 函数 的 实现 。 


1555 网络 结 构 


卷 积 网 络 一 般 包括 卷 积 层 、 池 化 层 ,全 连接 层 。 在 各 种 层 的 使 用 以 及 连接 关系 上 也 有 多 
种 改进 方案 。 典 型 的 包括 高 速 公路 网 络 和 残 差 网 络 ,不 使 用 全 连接 层 的 全 卷 积 网 络 , 以 及 多 
尺度 连接 等 。 

高 速 公路 网 络 (Highway Networks) 7 是 解决 深层 网 络 训练 问题 的 一 种 方案 , 它 的 做 
法 是 一 定 比例 地 保留 神经 网 络 的 输入 ,从 而 保证 反 向 传播 时 误差 项 能 顺利 地 传播 到 前 一 层 ， 
这 种 思想 和 第 16 章 中 要 讲述 的 长 短期 记忆 模型 相同 。 在 一 般 的 神经 网 络 中 ,每 一 层 的 变 
换 为 


NN, 
Hise 卷 积 神经 网 络 (367 
y = Н(х.Мн) 


其 中 ,x 为 输入 向 量 ;y 为 输出 向 量 ;W ON RB SH. 为 激活 函数 。 高 速 公路 网 络 每 一 层 
的 变换 为 
у = H(x.Wy) OT(x.Wr) + x9CG We) 

输出 向 量 是 传统 的 变换 输出 H (x Wp) ЖПБ АЙ À E Ht x 的 加 权 和 ,这 里 的 乘法 为 向 
量 相应 元 素 乘 。T(x,Wr) 和 C(x,Wce) 分 别 控 制 着 最 终 的 输出 值 来 源 于 变换 后 的 输入 和 原 
始 输入 的 比例 ,它们 各 个 分 量 的 取 值 都 为 0 一 1。 其 中 ,T 称 为 变换 门 (Transform Gate), 表 
示 对 输入 数据 进行 变换 后 的 输出 在 总 输出 中 的 比例 ;C 称 为 运输 门 (Carry Gate) ,表示 将 输 
入 数据 直接 进行 输出 在 总 输出 中 的 比例 ;Wz 为 变换 门 的 权重 和 矩阵 ;Wc 为 运输 门 的 权重 矩 
BE. 与 普通 的 权重 和 矩阵 一 样 ,这 两 个 矩阵 也 通过 训练 算法 得 到 。 如 果 令 C==1 一 T, 上 面 的 
公式 变 为 





y = H(x.Wy) ОТО.) +xO(1 — T(x,Wr)) 
定义 T(x,Wr) 为 
T(x) = o(Wrx + b+) 
在 这 里 为 sigmoid 函数 ,br 是 偏 置 项 。 根 据 正 向 传播 的 计算 公式 ,很 容易 得 到 反 向 传 
播 时 的 误差 项 .权重 和 偏 置 项 的 计算 公式 。 实 验 结果 证 明 ,高 速 功能 网 络 和 普通 神经 网 络 相 
比 ,在 训练 时 误差 更 小 。 随 着 神经 网 络 层 数 的 增加 ,高速 公路 网 络 的 收敛 速度 明显 快 于 普通 
神经 网 络 。 
残 差 网 络 [ 当 用 跨 层 连接 、 拟 合 误差 项 的 手段 来 解决 深层 网 络 难以 训练 的 问题 ,将 网 络 
的 层 数 推广 到 前 所 未 有 的 规模 。 之 前 的 经 验 已 经 证 明 , 增 加 网 络 的 层 数 会 提高 网 络 的 性 能 ， 
但 增加 到 一 定 程度 之 后 , 随 着 层次 的 增加 ,神经 网 络 的 训练 误差 和 测试 误差 会 增 大 ,这 个 问 
题 称 为 退化 。 
为 了 解决 这 个 问题 ,作者 设计 了 一 种 称 为 深度 残 差 网 络 的 结构 ,这 种 网 络 通过 跨 层 连接 
和 拟 合 残 差 来 解决 层次 过 多 带 来 的 问题 ,这 种 做 法 借鉴 了 高 速 公 路 网 络 的 设计 思想 。 假 设 
神经 网 络 要 拟 合 的 函数 为 Hx). RELH 
F(x) = H(x) — x 
其 中 ,x 为 输入 向 量 。 之 前 的 映射 五 (xz) 变 成 F(x) 十 x。 为 了 构造 残 差 网 络 ,首先 定义 一 种 
称 为 Building Block 的 结构 : 





























у = F(x,(W,)) +x 

其 中 ,x 和 y 是 要 考虑 的 层 的 输入 和 输出 向 量 ; 函 数 F | 
是 要 学 习 的 残 差 映射 ;W, 为 权重 。 这 一 结构 的 原理 如 wane 
图 15.7 ras. 

对 于 图 15. 7 来 说 ,这 两 个 层 的 映射 函数 为 下 = "® ү w 
W,o(W, x) HEP o 是 ReLU 激活 函数 。 为 了 表达 上 的 带 权重 的 层 
简化 ,忽略 了 偏 置 项 。 操作 十 x 通过 跨 层 连接 与 向 量 
加 法 实现 。 1 

上 述 这 种 结构 没有 引入 额外 的 参数 和 计算 ,但 是 带 к= m 
来 的 好 处 是 更 容易 优化 。 在 上 面 的 定义 中 ,要 求 玉 和 x a 


的 维 数 是 相同 的 。 如 果 不 满足 这 个 条 件 , 可 以 在 跨 层 连 ”图 15.7 跨 层 连接 与 拟 合 误差 
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接 中 加 入 一 个 线性 投影 W. ,使 得 二 者 的 维 数 相等 : 
y = F(x,(W,)) + W,x 
函数 F 的 形式 是 灵活 多 变 的 ,在 文献 [21] 中 , 它 跳 过 的 层 数 一 般 为 2 一 3 层 ,更 多 的 层 
数 也 是 可 以 的 。 如 果 只 有 一 层 , 函 数 变 成 了 一 个 线性 映射 : 
y=Wx+x 
上 面 的 这 种 映射 ,不 仅 可 以 用 于 全 连接 层 ,还 可 以 用 于 卷 积 层 。 通 过 跨 层 连接 技术 , 作 
者 把 深度 神经 网 络 增加 到 了 上 百 甚 至 上 千 层 。 
文献 [103] 对 残 差 网 络 的 机 制 进行 了 分 析 。 得 出 以 下 结论 : 残 差 网 络 并 不 是 一 个 单一 
的 超 深 网 络 ,而 是 多 个 网 络 指数 级 的 隐 式 集成 ,由 此 引入 多 样 性 的 概念 , 它 用 来 描述 隐 式 集 
成 的 网 络 的 数量 ;在 预测 时 , 残 差 网 络 的 行为 类 似 于 集成 学 习 ; 对 训练 时 的 梯度 流向 进行 了 
分 析 ,发 现 隐 式 集成 大 多 由 一 些 相对 浅 层 的 网 络 组 成 ,因此 , 残 差 网 络 并 不 能 解决 梯度 消失 
问题 。 
对 于 单个 跨 层 模块 , 它 所 代表 的 映射 可 以 写成 如 下 形式 ， 
Joa = fan Cy + yi 
其 中 ,y; 为 前 一 层 的 输出 数据 ; f. AS BUR Sz ЖИ ЮЙ] РА С. y. A KS BU dis h ЖОЙ. Ë 
由 直接 传递 前 一 层 的 数据 和 本 模块 的 映射 数据 相 加 而 成 。 对 于 有 З 个 跨 层 模块 的 网 络 , 它 


























所 实现 的 映射 如 图 15.8 所 示 。 
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图 15.8 一 个 三 层 的 残 差 网 络 


图 15. 8 中 的 圆圈 代表 向 量 加 法 运算 。 在 每 一 个 层 都 有 两 种 选择 , 跨 过 该 模块 ,或 者 通 
过 该 模块 。 将 上 式 反复 代入 进行 展开 ,可 以 得 到 上 面 的 3 层 结构 实现 的 映射 的 计算 公式 为 
у= у + fs (yz) 
[Di + /%Су,) + fs (y) + fe) 
[о + fi Су) + fx Yo + fi Yo JF fs (yo + fi Сув) + fs (ya + fi (Yo) 
展开 之 后 最 终 的 计算 公式 中 只 有 m 。 为 了 更 清楚 地 看 到 这 个 网 络 是 多 个 网 络 的 集成 
的 事实 ,将 上 式 画 成 图 15.9 所 示 的 结构 。 
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图 15.9 展开 后 的 残 差 网 络 
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从 yo 到 y, 数据 的 流向 一 共有 8 条 路 径 。 正 向 传播 时 ,数据 沿 着 这 8 条 路 径 向 前 流动 ; 
反 向 传播 时 ,误差 项 和 梯度 反 向 沿 着 这 8 条 路 径流 动 。 因 此 ,如 果 有 个 跨 层 结构 , 则 数据 
通过 的 路 径 有 2" 种 可 能 ,这 称 为 网 络 的 多 样 性 。 

传统 的 前 馈 型 神经 网 络 . 卷 积 神经 网 络 的 路 径 数 是 1. 即 从 输入 层 到 输出 层 ,数据 的 流 
向 只 有 一 条 路 径 。 基 于 上 面 的 分 析 ,作者 得 出 的 结论 是 残 差 网 络 是 多 个 单 路 径 网 络 的 集成 。 

为 了 进一步 证 明 残 差 网 络 的 这 种 集成 特性 ,并 确定 删除 掉 一 部 分 跨 层 结构 对 网 络 精度 
的 影响 ,作者 进行 了 删除 层 的 实验 ,在 这 里 有 两 组 实验 ,第 一 组 是 删除 单个 层 , 第 二 组 是 同时 
删除 多 个 层 。 为 了 进行 比较 ,作者 使 用 了 残 差 网 络 和 УСС 网 络 。 

在 第 一 组 实验 中 ,首先 按照 标准 的 程序 训练 了 一 个 110 层 的 残 差 网 络 ,然后 删除 网 络 中 
的 单个 跨 层 模 块 ,观察 删除 之 后 的 准确 率 。 为 了 进行 比较 ,作者 还 对 VGG 网 络 也 执行 了 这 
种 删除 层 的 操作 。 实 验 结果 证 明 , 除 了 个 别 的 层 之 外 , 删 掉 单 个 层 对 残 差 网 络 的 精度 影响 非 
常 小 。 相 比 之 下 , 删 掉 VGG 网 络 的 单个 层 会 导致 精度 的 急剧 下 降 。 

第 二 组 实验 是 删除 多 个 层 。 由 于 残 差 网 络 本 质 上 是 多 个 神经 网 络 的 集成 ,删除 的 层 越 
多 ,破坏 掉 的 单个 神经 网 络 的 数量 越 大 ,对 精度 的 影响 就 越 大 。 实 验 结果 证 明了 这 一 结论 ， 
随 着 删除 的 层 数 增加 ,网 络 的 误差 也 平滑 的 增加 。 

第 三 组 实验 是 对 网 络 的 结构 进行 变动 ,调整 层 的 顺序 。 在 实验 中 ,作者 打 乱 某 些 层 的 顺 
序 , 这 样 会 影响 一 部 分 路 径 。 具 体 做 法 是 ,随机 地 交换 多 对 层 的 位 置 ,这 些 层 的 输入 和 输出 
数据 尺寸 相同 。 同 样 地 , 随 着 调整 的 层 的 数量 增加 ,错误 率 也 平滑 上 升 ,这 和 第 二 组 实验 的 
结果 一 致 。 

一 个 n 层 的 残 差 网 络 有 2" 条 路 径 ,数据 在 所 有 这 些 路 径 中 流动 。 这 些 路 径 的 重要 性 是 
相同 的 吗 ? 作 者 观察 了 反 向 传播 时 在 各 个 路 径 上 的 梯度 流向 比例 。 上 有 具体 做 法 是 ,使 用 一 个 
训练 好 的 54 层 的 残 差 网 络 , 随 机 采样 一 些 指定 长 度 的 路 径 ( 因 为 同一 长 度 的 路 径 不 止 一 
条 ) ,然后 计算 各 条 路 径 在 反 向 传播 时 达到 输入 层 的 梯度 的 模 。 实 验 结 果 发 现 ,梯度 的 模 随 
着 路 径 长 度 的 增加 呈 指 数 级 衰减 ,这 说 明 越 长 的 路 径 在 反 向 传播 时 传递 的 信息 越 少 。 另 外 ， 
作者 还 统计 了 各 种 不 同 长 度 的 路 径 的 梯度 模 分 布 ,分 布 的 峰值 出 现在 5 一 17 长 度 的 路 径 上 。 
这 说 明 网 络 的 大 部 分 信息 是 由 5~17 层 的 网 络 提供 的 。 另 外 也 证 明了 残 差 网 络 并 不 能 解决 
梯度 消失 的 问题 , 它 只 是 多 个 浅 层 网 络 的 集成 。 

但 是 作者 的 这 种 解释 有 些 牵强 。 普 通 意 义 上 的 集成 学 习 算 法 ,其 各 个 弱 学 习 器 之 间 是 
相互 独立 的 ,而 这 里 的 各 个 网 络 共享 了 一 些 层 ,极端 情况 下 ,除了 一 层 不 同 之 外 ,另外 的 层 都 
相同 。 另 外 ,这 些 网 络 是 同时 训练 出 来 的 ,而 且 使 用 了 相同 的 样本 。 

全 卷 积 网 络 (Fully Convolutional Networks") ,FCN) 是 在 标准 卷 积 网 络 的 基础 上 所 做 

的 改变 , 它 将 标准 卷 积 网 络 的 全 连接 层 蔡 换 成 卷 积 层 ,以 适应 图 像 分 割 .深度 估计 等 需要 对 
原始 图 像 每 个 像素 点 进行 预测 的 情况 。 一 般 情况 下 ,全 卷 积 网 络 最 后 几 个 卷 积 层 采用 1X1 
的 卷 积 核 。 由 于 卷 积 和 下 采样 层 导致 图 像 尺寸 的 减 小 ,为 了 得 到 与 原始 输入 图 像 尺寸 相同 
的 图 像 ,使 用 了 反 卷 积 层 实现 上 采样 以 得 到 和 输入 图 像 尺寸 相等 的 预测 图 像 。 
不 同 层 的 卷 积 核 有 不 同 的 感受 野 .描述 了 图 像 在 不 同 尺度 的 信息 。 多 尺度 处 理 也 是 卷 
积 网 络 的 一 种 常用 手段 ,将 不 同 卷 积 层 输出 图 像 汇总 到 一 个 层 中 进行 处 理 可 以 提取 图 像 多 
尺度 的 信息 ,典型 的 做 法 包括 GoogLeNet, 550135) , Cascade СММ , DenseBoxU?! , #Е 15.8 
节 中 会 详细 介绍 。 
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15.5.6 批量 归 一 化 


神经 网 络 在 训练 过 程 中 每 一 层 的 参数 会 随 着 迭代 的 进行 而 不 断 变化 ,这 会 导致 它 后 面 
一 层 的 输入 数据 的 分 布 不 断 发 生变 化 ,这 种 问题 称 为 内 部 协 变量 漂移 (Internal Covariate 
Shift) 。 在 训练 时 ,每 一 层 要 适应 输入 数据 的 分 布 .这 需要 我 们 在 迭代 过 程 中 调整 学 习 率 ， 
以 及 精细 的 初始 化 权重 参数 。 为 了 解决 这 个 问题 ,可 以 对 神经 网 络 每 一 层 的 输入 数据 进行 
归 一 化 。 其 中 一 种 解决 方案 为 批量 归 一 化 (Batch Normalization) 9 , 它 是 网 络 中 一 种 特殊 
的 层 , 用 于 对 前 一 层 的 输入 数据 进行 批量 归 一 化 ,然后 送 入 下 一 层 进行 处 理 , 这 种 做 法 可 以 
加 速 神经 网 络 的 训练 过 程 。 
归 一 化 可 以 让 数据 具有 0 均值 和 单位 方差 , 即 对 数据 进行 如 下 变换 ， 
, ®— E(x) 
“ Waray 
其 中 ,E(z) 为 数据 的 数学 期 望 即 均值 ;Var(z) 为 数据 的 方差 。 在 神经 网 络 的 训练 过 程 中 ,每 
次 迭代 时 对 mini-batch 的 样本 数据 做 批量 归 一 化 。 整 个 批量 归 一 化 算法 的 输入 为 样本 在 网 
络 中 产生 的 输出 值 x; i= 1.2. mm 为 批量 的 大 小 。 算 法 需要 学 习 缩放 参数 y 和 平移 参 
数 8, 用 它们 对 数据 进行 变换 完成 归 一 化 : 
у= x +B 
假设 在 训练 时 每 次 迭代 输入 的 批量 数据 为 B= (zi оло mns) ,以 及 参数 7 和 PB, 这 两 
个 参数 通过 学 习 得 到 。 输 出 为 归 一 化 后 的 数据 y; 二 BN。.s(x;)。 正 向 传播 的 流程 如 下 。 


COD 计算 均值 : ys = LS Ti. 





(2) 计算 方差 : = po (x; — yn)? 
LM. 2, = Uh 

(3) 归 一 化 : z, = VETA 

CD 数据 缩放 和 平移 : y; = y£, +8. 

在 测试 阶段 由 于 每 次 只 对 一 个 样本 进行 预测 ,因此 , 没 法 计算 上 面 的 均值 和 方差 。 在 这 
里 ,可 以 使 用 训练 阶段 计算 出 的 均值 和 方差 。 具 体 做 法 是 ,以 训练 时 每 次 迭代 计算 出 的 均值 
作为 测试 时 的 均值 ,而 方差 则 为 训练 时 每 次 迭代 的 方差 的 无 偏 估计 。 它 们 的 计算 公式 分 
别 为 

E[x] = Ев[ив1 


Var[z] = Е] 
m= 


无 论 是 在 训练 阶段 ,还 是 在 测试 阶段 ,上 面 的 变换 都 作用 于 每 一 个 神经 元 ,这 是 一 对 一 
的 映射 。 反 向 传播 时 ,由 于 引入 了 批量 归 一 化 操作 ,导数 的 计算 有 所 改变 。y 和 有 是 神经 网 
络 的 可 学 习 参 数 ,它们 也 是 在 训练 时 通过 梯度 下 降 法 和 反 向 传播 算法 更 新 得 到 ,与 神经 网 络 
的 其 他 参数 没有 本 质 上 的 区 别 。 实 验 结果 证 明 批 量 归 一 化 技术 能 够 有 效 地 消除 内 部 协 变量 
漂移 问题 ,并 加 快 网 络 训 练 的 速度 ,同时 还 可 以 提高 网 络 的 精度 。 
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15.6 实际 例子 


本 节 以 Caffe 为 例 介绍 LeNet 网 络 的 实现 以 及 如 何 训练 自己 的 网 络 模型 。Caffe 是 一 
个 开源 的 卷 积 网 络 实现 ,由 加 州 大 学 伯克利 分 校 的 机 器 视觉 组 开发 ,作者 是 贾 杨 清 博士 5 。 
在 Caffe 中 ,网 络 结构 的 定义 采用 prototxt 格式 的 文件 。 


LeNet-5 网 络 


Caffe 默认 支持 一 些 经 典 的 网 络 ,包括 LeNet-5, AlexNet 等 。 文件 lenet_train_test. 
prototxt 定义 了 LeNet-5 网 络 训练 .测试 阶段 各 层 的 结构 ,在 这 里 为 该 文件 加 上 了 C ++ 风格 
的 注释 。 需 要 注意 的 是 ,Caffe 中 的 LeNet 网 络 并 没有 按照 原文 进行 实现 ,结构 略 有 不 同 。 

第 一 层 是 数据 层 , 分 训练 和 测试 两 个 阶段 ,分别 使 用 了 不 同 的 数据 。 


15.6.1 


1ауег { // 网 络 的 第 一 层 一 一 数据 层 , 它 负责 从 文件 中 读 和 图像, 并 对 图 像 进 行 预 处 理 
name: "mnist" // 层 的 名 称 
type: "Data" // 层 的 类 型 


top: "data" // 层 的 输出 值 ,从 文件 读 取 并 变换 之 后 的 图 像 
top: "label" // 层 的 输出 值 , 图 像 的 类 别 标签 
include { // 本 层 在 训练 时 使 用 


phase: TRAIN 

} 

transform_param { 
scale: 0.00390625 


// 本 层 的 变换 参数 

//1/256, 图 像 像 素 的 RGB 值 乘 以 该 值 , 缩 放 到 [0,1) 
} 
data_param { // 数 据 参数 

source: "examples/mnist/mnist_train_lmdb" 
batch_size: 64 
backend: LMDB 


// 数 据 源 , 图 像 文件 信息 放 在 本 文件 
// 批 量 的 尺寸 ,每 次 读 人 64 张 图 像 


} 


再 来 看 卷 积 层 的 定义 : 
layer { // 第 一 层 , 卷 积 层 
name: "сопу1" // 层 的 名 称 
type: "Convolution" // 层 的 类 型 
bottom: "data" // 本 层 的 输入 
сор: "сопу1" // 本 层 的 输出 
param { // 学 习 因 子 
lr mult: 1 
} 
param { 
lr mult: 2 
) 
convolution param { // 卷 积 相 关 的 参数 
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num output: 20 // 本 层 的 输出 图 像 张 数 , 即 卷 积 核 的 个 数 
kernel size: 5 // 卷 积 核 的 大 小 
stride: 1 // 卷 积 操作 的 步 长 


weight filler { 

type: "xavier" // 权 重 初始 化 方法 
} 
bias filler { 


type: "constant" // 偏 置 项 初始 化 方法 


) 
接 下 来 看 池 化 层 的 定义 : 
1ауег { // 池 化 层 


name: "роо11" 
type: "Pooling" 


bottom: "convi" 


top: "pooll" 
pooling param ( 
pool: MAX 
kernel size: 2 // 池 化 核 的 尺寸 
stride: 2 // 池 化 的 步 长 
} 
) 
下 面 为 全 连接 层 的 定义 : 
layer { // 全 连接 层 


name: "ipl" 
type: "InnerProduct" 
bottom: "роо12" 
top: "ip1" 
param { 
lr mult: 1 
) 
param ( 
lr mult: 2 
) 
inner product param ( 
num output: 500 // 输 出 数据 维 数 
weight filler { 
type: "xavier" // 权 重 初始 化 方式 
bias filler { 
type: "constant" // 偏 置 项 初始 化 方式 
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} 
激活 函数 层 的 定义 : 
layer { // 激 活 函 数 层 
name: "relul" 
type: "Кеш" 
bottom: "1р1" 
tops "ipf" 
) 
损失 层 只 在 训练 阶段 使 用 ,是 网 络 的 最 后 一 层 。 定 义 如 下 : 


layer { // 损 失 层 
name: "loss" 
type: "SoftmaxWithLoss" 
bottom: "ip2" 
bottom: "label" 
top: "loss" 


) 
Caffe 中 的 LeNet 两 个 卷 积 层 都 没有 使 用 激活 函数 ,两 个 全 连接 层 中 也 只 有 第 一 个 层 


使 用 了 激活 函数 ,而 且 是 ReLU 函数 ,而 不 是 原文 中 的 tanh 函数 。 另 外 ,损失 层 使 用 的 是 
SoftmaxWithLoss В 


1562 ”训练 自己 的 模型 


使 用 Caffe 可 以 很 方便 地 定义 自己 的 神经 网 络 ,并 完成 模型 训练 。Caffe 默认 支持 
mnist.cifar10.ImageNet 1000 等 数据 集 。mnist 和 cifar10 的 数据 集 可 以 通过 程序 代码 自动 
下 载 ,ImageNet 1000 需要 自己 下 载 。 训 练 一 个 神经 网 络 模型 分 如 下 几 步 。 

(1) 准备 训练 样本 数据 。 

(2) 生成 Imdb 文件 。 

(3) 计算 所 有 样本 图 像 的 均值 。 

(4) 定义 网 络 结构 。 

(5) 执行 训练 程序 。 

下 面 分 别 介 绍 每 个 步骤 。 首 先是 准备 训练 样本 图 片 ,为 图 像 建立 一 个 目录 ,然后 将 所 有 
图 片 复制 到 该 目录 。 所 有 图 像 必 须 缩 放 到 神经 网 络 所 需要 的 大 小 。 接 下 来 建立 图 像 描 述 文 
件 , 这 是 一 个 文本 文件 ,每 一 行 代 表 一 个 样本 。 该 文件 的 格式 为 


[图 像 文 件 名 ] [类 别 编号 ] 
图 像 文 件 名 是 图 像 文 件 的 路 径 ,类 别 编号 是 该 图 片 的 类 别 , 用 整数 编号 ,一般 从 1 开始 。 
由 于 训练 样本 很 多 ,手工 建立 该 文件 效率 太 低 ,一 般 用 程序 或 者 脚本 生成 ,这 个 程序 很 简单 ， 


自己 写 一 个 或 者 利用 系统 命令 都 可 以 做 到 。 
接 下 来 生成 Imdb 文件 ,lmdb 文件 是 Caffe 使 用 的 样本 描述 文件 格式 。 在 训练 时 ,程序 
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会 从 该 文件 读 取 图 像 信息 ,加 载 图 像 。 在 这 里 修改 Caffe 的 脚本 ,然后 执行 该 脚本 ,把 文件 
转换 成 Imdb 格式 。 

执行 脚本 ,生成 均值 文件 ,计算 图 像 均 值 的 目的 在 于 让 所 有 样本 图 像 都 减 掉 这 个 均值 ， 
以 加 快 训练 时 算法 的 收敛 速度 ,避免 数值 计算 问题 。 

定义 网 络 结构 ,为 prototxt 格式 ,这 个 文件 定义 了 网 络 的 结构 ,主要 是 网 络 名 称 , 各 个 层 
的 信息 ,该 文件 的 例子 在 前 面 介绍 过 。 另 外 ,还 要 定义 solver. prototxt 文件 , 它 描述 了 求解 
器 的 参数 。 

最 后 执行 命令 ,完成 训练 : 


# sudo build/tools/caffe train -solver examples/myfile/solver.prototxt 


在 训练 过 程 中 SERRE E ВЁЖЕ Ed h A d E. «n оч ЗЕК Ж, Н PHBE. VIL ZR 
结束 后 会 得 到 一 个 . caffemodel 模型 文件 。 


15.7 源 代码 分 析 


目前 已 有 多 个 著名 的 开源 卷 积 神经 网 络 实现 ,包括 Caffe, TensorFlowt®™®® , 
CNTK! ,Мхпе 1 , Torch. 1 Ж Theano 等 。 其 中 ,Caffe 是 最 早 推出 且 使 用 最 广泛 的 框架 
之 一 ,本 书 的 源 代码 分 析 将 以 Caffe 为 例 ,这 些 开源 实现 的 原理 类 似 ,理解 了 其 中 的 一 个 ,很 
容易 理解 其 他 的 库 。 


15.7.1 Caffe 简介 


Caffe 用 C++ 语言 编写 ,最 核心 的 3 种 类 是 Layer、Net 和 Solver。 神 经 网 络 由 Net 类 
实现 , 它 由 多 个 层 即 Layer 类 的 对 象 组 成 ,可 以 通过 使 用 不 同 的 层 来 实现 各 种 结构 的 网 络 。 
Layer 是 一 个 抽象 类 ,由 它 派生 了 各 种 不 同 的 类 来 实现 各 种 层 。 典 型 的 包括 卷 积 层 、 池 化 
层 、 内 积 层 激活 函数 层 .损失 层 等 。 大 部 分 的 层 都 实现 了 正 向 传播 和 反 向 传播 函数 ,在 正 向 
传播 阶段 计算 输入 数据 的 输出 值 ;在 反 向 传播 阶段 计算 参数 的 梯度 值 以 及 更 新 参数 ,并 将 误 
差 传播 到 前 一 层 。 模 型 训练 时 最 优化 问题 的 求解 由 求解 器 类 Solver 完成 ,这 也 是 一 个 基 
类 ,从 它 派生 出 了 各 种 类 实现 各 种 不 同 的 随机 梯度 下 降 法 ,它们 都 是 标准 梯度 下 降 法 的 
变种 。 

在 实现 时 ,全 连接 层 和 卷 积 层 不 带 有 激活 函数 ,激活 函数 由 单独 的 层 来 实现 。 求 解 器 和 
网 络 类 实现 了 分 离 ,这 样 可 以 很 方便 地 扩展 出 各 种 求解 算法 。 

本 书 只 分 析 与 算法 实现 相关 的 核心 部 分 。 考 虑 到 GPU 的 代码 需要 读者 有 GUDA 编 
程 知识 .我们 只 对 CPU 版 本 的 代码 进行 分 析 。 重 点 分 析 的 是 Caffe 中 各 种 层 的 实现 ,包括 
正 向 传播 `. 反 向 传播 过 程 的 实现 ;网络 的 整体 结构 , 即 Net 类 ;求解 训练 的 最 优化 问题 的 求 
解 器 Solver; 以 及 完整 的 训练 算法 流程 。 

在 Caffe 中 所 有 大 尺寸 数据 都 保存 在 Blob 类 中 ,如 图 像 、 神 经 网 络 的 权重 参数 等 。 这 
是 一 个 多 维 数组 ,通常 是 四 维 数组 ,4 个 维度 为 

(N,C,H,W) 
N.C.H.W 分 别 为 数据 数 (如 图 像 的 数量 ) 、 通 道 数 (如 RGB 图 像 有 3 个 通道 ) .数组 的 高 度 
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和 数组 的 宽度 。 图 像 在 Caffe 中 按照 通道 、 高 度 、 宽 度 的 顺序 存储 。 


在 Caffe 中 一 个 神经 网 络 由 多 个 层 组 成 ,这 和 前 面 介 绍 的 标准 前 馈 型 神经 网 络 、 卷 积 神 
经 网 络 的 定义 一 致 。 各 个 层 的 作用 是 实现 正 向 传播 和 反 向 传播 过 程 ,下 面 分 别 介绍 各 种 层 
的 正 向 传播 ` 反 向 传播 的 规律 。 如 果 将 一 个 层 的 变换 写成 如 下 映射 函数 : 

y= f(x) 

正 向 传播 时 需要 根据 输入 向 量 计算 输出 向 量 。 反 向 传播 时 需要 根据 输入 向 量 的 梯度 值 
V,L 计算 输入 向 量 的 梯度 值 Y L ,传播 到 前 一 层 。 如 果 本 层 有 参数 ,还 需要 根据 梯度 值 
VoL 计算 本 层 参数 的 梯度 值 YeoL 以 用 于 梯度 下 降 法 的 更 新 。 其 中 , 是 损失 函数 ,9 是 本 
层 的 参数 。 

比较 特殊 的 是 损失 层 ,在 训练 阶段 的 正 向 传播 阶段 , 它 根据 输入 数据 x 计算 损失 函数 值 
L, 这 是 一 个 标量 。 在 训练 阶段 的 反 向 传播 阶段 , 它 直 接 计 算 损 失 函 数 对 本 层 传 入 数据 的 梯 
REV .L. 

卷 积 层 被 拆 分 成 纯 卷 积 操 作 层 与 激活 函数 层 两 个 层 。 纯 卷 积 操作 层 只 做 卷 积 操作 , 然 
后 加 上 偏 置 项 ; 反 向 传播 时 计算 参数 的 更 新 值 ,并 把 误差 传播 到 前 一 层 。 

全 连接 层 被 拆 分 成 内 积 层 和 激活 函数 层 两 个 层 实现 。 内 积 层 实现 乘 权 重 矩 阵 和 加 偏 置 
项 的 运算 ,激活 函数 层 只 实现 一 对 一 的 激活 函数 映射 。 

池 化 层 和 前 面 介 绍 的 标准 下 采样 层 是 一 样 的 ,这 种 层 不 带 参数 ,在 反 向 传播 时 ,只 需 将 
误差 传播 到 前 一 层 ,无 须 更 新 本 层 的 参数 值 。 

激活 函数 层 , 正 向 传播 时 计算 激活 函数 值 .输出 向 量 的 每 个 分 量 和 输入 向 量 的 每 个 分 量 
一 一 对 应 。 反 向 传播 时 ,由 于 激活 函数 没有 参数 ,因此 反 向 传播 时 无 须 更 新 参数 ,只 需要 将 
误差 传播 到 前 一 层 。 

内 积 层 实现 全 连接 层 的 乘 权 重 和 矩阵 ,加 偏 置 项 操作 。 反 向 传播 时 计算 本 层 参数 的 更 新 
值 , 并 把 误差 项 传播 到 前 一 层 。 

损失 层 比 较 特 殊 , 它 接收 前 一 层 的 输入 向 量 , 和 样本 的 真实 输出 响应 值 一 起 进行 计算 得 
到 损失 函数 值 。 在 反 向 传播 时 ,需要 计算 损失 函数 对 输入 值 的 偏 导 数 , 然 后 传递 到 前 一 层 。 
于 损失 函数 没有 要 训练 得 到 的 参数 值 , 因 此 ,也 无 须 更 新 参数 。 

在 Caffe 中 ,所 有 的 层 都 从 layer 类 派生 ,这 是 一 个 抽象 基 类 。layer 类 最 关键 的 3 个 成 
DA pK 0 SetUp、Forward、Backward。 其 中 .SetUp 完成 层 的 初始 化 ,包括 分 配 空间 、 变 量 
初始 化 ;Forward 是 正 向 传播 函数 ;Backward 是 反 向 传播 函数 。 

类 layer 的 关键 是 实现 正 向 传播 和 反 向 传播 的 功能 。 正 向 传播 时 接收 输入 数据 ,计算 
正 向 变换 。 此 时 ,输入 数据 存放 在 输入 参数 bottom 中 ,输出 数据 存放 在 输出 参数 top 中 。 
反 向 传播 时 接收 后 一 层 传 来 的 误差 项 ,如 果 需 要 .计算 本 层 参数 的 梯度 值 . 本 层 的 误差 值 , 传 
播 到 前 一 层 。 此 时 top 是 输入 数据 ,bottom 是 输 


出 数据 ,和 正 向 传播 相反 。 正 向 传播 和 反 向 传播 C ep D Сә) 


















































的 过 程 如 图 15. 10 所 示 。 Forward | Backward 
本 层 的 参数 存储 在 成 员 变量 layer param | layer. lever 

中 ,训练 得 到 的 参数 存储 在 成 员 变量 blobs 中 ,这 | 

是 layer 最 重要 的 两 个 成 员 变 量 。 ( bottom ) 


下 面 先 看 正 向 传播 函数 Forward 的 实现 ,这 В 15.10 layer 的 正 向 传播 和 反 向 传播 
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只 是 一 个 接口 包装 函数 ,具体 的 正 向 传播 功能 是 调用 函数 Forward. сри 或 Forward gpu 实 
现 的 ,这 两 个 函数 留 给 派生 类 实现 。 


15.7.2 HE 


数据 层 的 作用 是 从 文件 或 者 数据 库 中 读 取 图 像 数 据 和 标签 , 放 到 这 一 层 的 两 个 top 中 。 
需要 注意 的 是 ,数据 层 在 正 向 传播 时 ,只 使 用 输出 值 , 即 读 取 的 样本 数据 ,没有 使 用 输入 值 
bottom, 

BaseDataLayer 是 数据 层 的 基 类 ; BasePrefetchingDataLayer 是 预 取 数据 层 类 ,实现 预 
取 的 功能 , 即 读 取 训 练 图 片 和 标签 值 。DataLayer 是 普通 数据 的 存 取 层 ;ImageDataLayer 类 
用 于 图 像 数 据 的 读 取 。 数 据 类 的 继承 关系 如 图 15. 11 所 示 。 





BaseDataLayer 


| 


BasePrefetchingDataLayer 


! 


DataLayer ImageDataLayer 


图 15.11 数据 层 类 的 继承 关系 
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卷 积 操 作 是 通过 转化 成 矩阵 乘法 实现 的 ,分 为 以 下 3 步 。 

CD 将 待 卷 积 图 像 . 卷 积 核 转 换 成 矩阵 。 

(2) 调用 通用 矩阵 乘法 GEMM 函数 对 两 个 矩阵 进行 乘积 。 

(3) 将 结果 矩阵 转换 回 图 像 。 

在 反 卷 积 的 原理 介绍 中 ,也 介绍 了 这 种 用 和 矩阵 乘法 实现 卷 积 运算 的 思路 。 在 Caffe 的 
实现 中 和 前 面 的 思路 略 有 不 同 ,不 是 将 卷 积 核 的 元 素 复 制 多 份 ,而 是 将 待 卷 积 图 像 的 元 素 复 
制 多 份 。 

首先 将 输入 图 像 每 个 卷 积 位 置 处 的 子 图 像 按 照 行列 拼接 起 来 转换 成 一 个 列 向 量 。 假 设 
子 图 像 的 尺寸 为 *Xs, 与 卷 积 核 大 小 一 样 , 行 向 量 的 尺寸 就 是 *Xs; 如 果 一 共有 non ASTA 
子 图 像 , 列 向 量 的 个 数 就 是 ze , 接 下 来 将 这 些 列 向 量 组 合 起 来 形成 矩阵 。 假 设 有 一 个 mx 








n 的 输入 图 像 : 
Tu Tin 
Хы ° Linn 
对 于 第 一 个 卷 积 位 置 的 *Xs* 子 图 像 ,转换 成 列 向 量 之 后 变 为 
[£n °F Z dno Ut Ey s лд c kj 


对 于 单 通道 图 像 ,将 所 有 位 置 的 子 矩阵 都 像 这 样 转 换 成 列 向 量 ,最 后 将 nass e FUIS] tH. 
成 矩阵 ,矩阵 的 行 数 为 *Xs, 列 数 为 no: 
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对 于 多 通道 图 像 , 还 要 将 上 面 这 种 单 通道 图 像 转 换 成 的 矩阵 在 垂直 方向 依次 拼接 起 来 。 
最 后 形成 的 矩阵 的 行 数 为 cXs*Xs, 其 中 ,c 是 图 像 的 通道 数 。 

接 下 来 ,将 卷 积 核 矩 阵 也 转换 成 向 量 。 有 具体 做 法 是 ,将 卷 积 核 矩 阵 的 所 有 行 拼接 起 来 形 
成 一 个 行 向 量 。 每 个 卷 积 核 形成 一 个 行 向 量 , 有 meoa 个 卷 积 核 , 就 有 mmu 个 行 向 量 。 假 设 
有 一 个 sXs 的 卷 积 核 矩 阵 : 


转换 之 后 变 成 这 样 的 行 向 量 ， 
k= [Ap Rs Root Root ka cn ks] 
如 果 卷 积 核 有 多 个 通道 ,就 将 这 多 个 通道 拼接 起 来 ,形成 一 个 更 大 的 行 向 量 。 由 于 卷 积 
层 有 多 个 卷 积 核 ,因此 ,这 样 的 行 向 量 有 多 个 ,将 这 些 行 向 量 合并 在 一 起 ,形成 一 个 矩阵 : 








kı 
K=| : 
k... 
有 了 上 面 这 些 和 矩阵 ,最 后 就 将 卷 积 操作 转换 成 如 下 矩阵 乘积 : 
KX 


乘积 结果 矩阵 的 每 一 行 是 一 个 卷 积 结果 图 像 。 

在 进行 预测 时 ,是 对 单 张 图 像 的 多 个 通道 进行 卷 积 ;在 训练 时 ,由 于 采用 了 Mini-Batch 
的 随机 梯度 下 降 法 ,因此 , 正 向 传播 时 要 对 多 张 图 像 同 时 进行 卷 积 。 

采用 这 种 矩阵 乘法 之 后 ,可 以 更 清楚 地 看 到 卷 积 神经 网 络 共享 权 值 的 特性 。 另 外 , 反 向 
传播 求 导 可 以 很 方面 地 通过 矩阵 乘法 实现 ,刚好 和 正 向 传播 时 所 乘 的 矩阵 相对 称 , 即 转 置 矩 
阵 , 这 在 15. 4. 1 节 中 已 经 介绍 过 。 卷 积 运算 由 Im2colLayer、BaseConvolutionLayer、 
ConvolutionLayer 这 3 个 类 完成 。 

Im2colLayer 类 是 一 个 辅助 工具 类 ,实现 将 图 像 转换 为 向 量 的 功能 ,用 于 卷 积 运算 。 郴 
数 Forward сри 完成 正 向 传播 功能 ,将 图 像 转 换 成 矩 阵 形式 。 函 数 Backward_cpu 实现 反 
向 传播 功能 ,将 图 像 从 矩阵 形式 转换 回来 。 

BaseConvolutionLayer 类 是 卷 积 操作 的 基 类 ,用 于 实现 卷 积 和 反 卷 积 操作 。 在 正 向 传 
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播 时 , 它 接收 上 一 层 传 过 来 的 输入 图 像 ,图 像 可 能 有 多 张 ,每 张 图 像 可 能 有 多 个 通道 ,进行 卷 
积 操作 之 后 ,输出 的 图 像 可 能 也 有 多 个 通道 ,通道 数 等 于 本 层 卷 积 核 的 个 数 。 
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均值 和 最 大 值 池 化 由 PoolingLayer 类 实现 , 正 向 传播 和 反 向 传播 时 严格 按照 前 面 给 出 
的 公式 进行 ,因为 实现 很 简单 ,限于 篇 幅 , 在 这 里 不 进行 源 代码 分 析 。 


15.7.5 神经 元 层 


神经 元 层 实现 了 激活 函数 和 dropout 功能 。 前 面 已 经 介绍 过 ,激活 函数 实现 的 是 向 量 
到 向 量 的 逐 元 素 映 射 , 对 输入 向 量 的 每 个 分 量 进行 激活 函数 变换 。 正 向 传播 时 接收 前 一 层 
的 输入 ,通过 激活 函数 作用 之 后 产生 输出 。 反 向 传播 时 接收 后 一 层 传人 的 误差 项 ,计算 本 层 
的 误差 项 并 把 误差 项 传播 到 前 一 层 ,计算 公式 为 

ё = 8C Of w) 

NeuronLayer 是 神经 元 层 的 基 类 。 在 Caffe 中 乘 权重 矩阵、 加 偏 置 项 这 两 项 操作 并 没 
有 在 这 个 类 中 实现 ,而 是 由 另外 一 种 类 InnerProductLayer 来 实现 ,在 后 面 会 讲述 。 表 15.2 
是 Caffe 支持 的 各 种 激活 函数 及 它们 的 导数 。 


Ж 15.2 Caffe 支持 的 各 种 激活 函数 及 它们 的 导数 



































类 型 激活 函数 5 E 
sigmoid f(x) “өмә fG)fGY(1—fG)) 
tinh fa) Б = f(z)=1— (уа) y: 
BNLL jz) 一 In(1 十 exp(z)) Poe aa 
power f(x) = (ax B)? Р(х) =ау (az=+Ü)” `! 
ReLU f(x) = max(0,2) ro [ gio 
ELY g V ps s fm p 
кыш | ло 0 аа I 
exp Хбх) = у f (x) —Y**? (In у)а 
їп f(x) =In, (ат +В) fO uL 


所 有 的 激活 函数 层 在 进行 变换 时 都 是 把 输入 数据 bottom 当成 一 个 整体 的 大 向 量 ,分 别 
对 每 个 分 量 计算 激活 函数 ,而 不 管 这 个 输入 数组 每 一 维 的 尺寸 ;在 反 向 传播 时 也 是 如 此 。 

SigmoidLayer 类 实现 了 标准 sigmoid 激活 函数 。 正 向 传播 函数 对 每 个 输入 数据 计算 
sigmoid 函数 值 , 在 这 里 count 是 输入 数据 的 维 数 。 实 现代 码 如 下 : 
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template<typename Dtype> 
void SigmoidLayer<Dtype> ::Forward cpu (const vector«Blob«Dtype» * >& bottom, 


Const vector<Blob<Dtype> * >& top) { 
// 输 入 数据 
const Dtype* bottom data-bottom[0]-»cpu data(); 
// 输 出 数据 
Dtype* top data= top[ 0]- >mutable_cpu_data(); 
// 输 入 数据 的 个 数 
const int count=bottom[0]->count () ; 
for(int 1=0; i<count;++i) { 
top data[i]-sigmoid(bottom data[i]); // 对 每 个 数据 计算 sigmoid 函数 


} 
反 向 传播 函数 计算 后 一 层 的 误差 项 与 激活 函数 导数 的 乘积 。 实 现代 码 如 下 : 


template< typename Dtype>void SigmoidLayer« Dtype» ::Backward cpu( 
const vector<Blob<Dtype> * >& top, 
const vector<bool>& propagate down, 
const vector<Blob<Dtype> * >& bottom) { 
if(propagate down[0]) ( 
//top data 为 本 层 的 sigmoid ffi 
const Dtype* top data-top[0]-»cpu data(); 
//top diff 为 后 一 层 的 误差 
const Dtype* top diff-top[0]-»cpu diff(); 
//bottom _ diff 存放 本 层 误差 
Dtype * bottom diff-bottom[0]-»mutable cpu diff(); 
const int count-bottom[0]-» count () ; 
for(int i=0; i<count;++i) { 
//sigmoid 函数 值 在 正 向 传播 时 被 计算 出 来 ,并 存在 这 里 供 反 向 传播 时 用 
const Dtype sigmoid x=top_data[i]; 
// 计 算 sigmoid в й Sj BC, FFG Je —J= eoe НО ЭЕ TE, SR TELA 
// 式 参考 10.1 节 
bottom diff[i]-top diff[i] * sigmoid x * (1.-sigmoid x); 


} 
TanHLayer 类 实现 了 tanh 激活 函数 。 正 向 传播 函数 实现 代码 如 下 : 


template<typename Dtype> 
void TanHLayer<Dtype> ::Forward cpu(const vector<Blob<Dtype> * >& bottom, 
const vector<Blob<Dtype> * >& top) { 

const Dtype* bottom data=bottom[ 0]->cpu data(); 

Dtype* top data-top[0]-»mutable cpu data(); 

const int count-bottom| 0]- > count () ; 


// 对 每 个 输入 数据 计算 tanh 函数 
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for (int i=0; i<count;++i) { 
// 直 接 调用 数学 库 的 tanh 函数 
top_data[ i]- tanh (bottom data[i] M 


) 
反 向 传播 函数 的 实现 如 下 ,在 这 里 利用 了 tanh 函数 的 求 导 公式 : 


template<typename Dtype> 
void TanHLayer<Dtype> ::Backward сри (const vector<Blob<Dtype> * >& top, 
const vector<bool>& propagate_down, 
const vector«Blob«Dtype» * >& bottom) { 
if(propagate down[0]) ( 
const Dtype* top data-top[0]-»cpu data(); 
const Dtype* top diff-top[0]-»cpu diff(); 
Dtype* bottom diff- bottom[ 0] -»mutable cpu diff(); 
const int count-bottom| 0]- > count () ; 
Dtype tanhx; 
for(int i-0; i<count;++i) ( 
tanhx-top data[i]; // 拿 到 tanh (x) ffi 
// 计 算 tanh 的 导数 ,并 与 后 一 层 的 误差 相 乘 , 导 数 计算 公式 参考 表 15.2 
bottom diff[i]-top diff[i] * (1-tanhx * tanhx); 


1 
类 ReLULayer 实现 ReLU 激活 函数 ,和 前 面 介 绍 的 标准 ReLU 不 同 , 这 里 做 了 改进 ， 


定义 为 
f(x) = E r20 
ах, х<0 
其 中 ,a 是 人 工 设 定 的 大 于 0 的 参数 。 显 然 该 函数 的 导数 为 
Pu = Ж r20 
а, xz O0 
下 面 来 看 正 向 传播 函数 的 代码 : 


template<typename Dtype> 
void ReLULayer<Dtype> ::Forward cpu(const vector<Blob<Dtype> * >& bottom, 
const vector<Blob<Dtype> * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data(); 
Dtype* top data-top[0]-»mutable cpu data(); 
const int count-bottom|0]- > count () ; 
//x<0 时 的 斜率 ,人 工 设 定 的 参数 a 
Dtype negative slope=this->layer param .relu param().negative slope(); 
for(int i-0; i<count;++i) { 
//max (x, 0)*a* min(x, 0) 


top data[ i]-std::max (bottom data[ i], Dtype (0)) 
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+negative_slope * std::min(bottom data[i], Dtype(0)); 


) 
反 向 传播 函数 的 实现 如 下 : 


template< typename Dtype> 
void ReLULayer<Dtype> ::Backward cpul(const vector<Blob< Dtype> * >& top, 
const vector«bool»& propagate down, 
const vector«Blob«Dtype» * »& bottom) { 
af (propagate down[ 0]) T 
const Dtype * bottom data-bottom[0]- >cpu_data(); 
const Dtype* top diff-top[0]-»cpu diff(); 
Dtype* bottom diff- bottom[ 0]- »mutable cpu diff(); 
const int count-bottom|0]-» count () ; 
Dtype negative slope-this-»layer param .relu param().negative slope(); 
for(int i-0; i<count;++i) { 
// 如 果 bottom data[i]>0, 下 式 为 top diff[i] 
// 否 则 为 negative slope 
bottom diff[i]-top diff[i] * ((bottom data[i]»0) 
*negative slope * (bottom data[i]«-0)); 


) 


ELULayer 类 实现 ELU 激活 函数 ,是 直线 函数 和 指数 函数 的 结合 。 当 a > 0 时 函数 值 
у 23 4 20 是 一 条 衰减 的 指数 函数 曲线 。 可 以 证 明 , 当 xz 习 一 吕 时 该 函数 的 极限 为 一 a。 
当 х<0 时 其 导数 为 
f (2) = a£ = a —a +a = a (е —1) +a = f(x) +a 
这 样 可 以 通过 函数 值得 到 导数 值 ,减少 计算 量 。 正 向 传播 函数 的 实现 如 下 : 














template<typename Dtype> 
void ELULayer< Dtype> : :Forward_cpu (const vector<Blob< Dtype> * >& bottom, 
const vector<Blob<Dtype> * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data (); 
Dtype* top data-top[0]-»mutable cpu data(); 
const int count-bottom|0]-» count () ; 
Dtype alpha-this-»layer param .elu param().alpha(); // 参 数 а 的 值 
for(int i=0; i<count;++i) ( 
// 当 bottom data[i]»0 时 下 式 的 值 为 bottom data[i] 
// 否 则 , 值 为 alpha * exp(bottom data[i]-1) 
top data[i]-std: :max (bottom data[i], Dtype (0) ) 
+alpha * (exp (std: :min (bottom data[ i], Dtype (0))) -Dtype (1) ) ; 


) 
反 向 传播 函数 的 实现 如 下 : 
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template<typename Dtype> 
void ELULayer< Dtype> : :Backward_cpu (const vector<Blob<Dtype> * > & top, 
const vector<bool>& propagate down, 
const vector«Blob«Dtype» * »& bottom) { 
if (propagate down[0]) { 
const Dtype * bottom data-bottom[0]-»cpu data(); 
const Dtype * top data- top[ 0]-> cpu data(); 
const Dtype* top diff-top[ o]-» cpu diff(); 
Dtype* bottom diff-bottom|0]-»mutable cpu diff(); 
const int count-bottom[ 0]- > count () ; 
Dtype alpha-this-»layer param .elu param().alpha(); 
for (int i-0; i<count;++i) { 
// 当 x>0 时 ,下 式 的 值 为 top diff[i] 
// 当 x0 时 ,下 式 的 值 为 alpha+top data[ і] a+ f (x) 
bottom diff[i]=top diff[i] * ((bottom data[i]»0) 
+ (alpha*top data[i]) * (bottom data[i]«-0)); 


) 
类 PReLULayer 实现 了 PReLU 激活 函数 。 正 向 传播 函数 的 实现 如 下 : 


template<typename Dtype> 
void PReLULayer<Dtype> ::Forward cpu(const vector<Blob<Dtype> * >& bottom, 
const vector<Blob<Dtype> * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data(); 
Dtype* top data-top[0]-»mutable cpu data(); 
const int count-bottom|0]- > count () ; 
const int dim-bottom[0]-» count (2); 
const int channels-bottom[0]-»channels(); 
const Dtype* slope data-this-»blobs [0]-»cpu data(); 
if(bottom[0]--top[0]) ( 
caffe copy(count, bottom data, bottom memory .mutable cpu data()); 
) 
const int div factor-channel shared ? channels : 1; 
for(int i=0; i<count;++i) { 
int c= (i/dim) $ channels/div factor; 
//* bottom data[i]»0 BF, F3X f] ( 29 bottom data[i] 
// 否 则 为 slope data[c] * bottom data[i] 
top data[ i]-std: :max (bottom data[ эЛ, Dtype (0)) 
+slope_data[c] * std::min(bottom data[i], Dtype(0)); 


) 
反 向 传播 函数 的 实现 如 下 : 


template< typename Dtype> 
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void PReLULayer<Dtype> ::Backward cpu(const vector«Blob«Dtype» * >& top, 
const vector<bool>& propagate down, 
const vector«Blob«Dtype» * >& bottom) { 
const Dtype* bottom data-bottom[0]-»cpu data(); 
const Dtype* slope data-this- >blobs [ 0]-» cpu data(); 
const Dtype* top diff-top[0]-»cpu diff(); 
const int count-bottom|0]-» count () ; 
const int dim-bottom[0]-» count (2); 
const int channels-bottom[0]-» channels (); 
if(top[0]--bottom[0]) { 
bottom data-bottom memory .cpu data(); 
) 
const int div factor-channel shared ? channels : 1; 
if(this-»param propagate down [0]) ( 
Dtype* slope diff-this-»blobs [0]-»mutable cpu diff(); 
for(int i=0; i<count;++i) { 
int c= (i/dim) % channels/div factor; 
slope diff[c]*-top diff[i] * bottom data[i] * (bottom data[i]«-0); 


) 
if(propagate down[0]) ( 
Dtype * bottom diff-bottom[0]-»mutable cpu diff(); 
for(int i=0; i<count;++i) { 
int c- (i/dim) * channels/div factor; 
bottom diff[i]-top diff[i] * ((bottom data[i]»0) 
*slope data[c] * (bottom data[i]«-0)); 


) 


类 DropoutLayer 实现 dropout 机 制 。 在 训练 阶段 ,随机 丢掉 一 部 分 神经 元 ,用 剩 下 的 
节点 进行 前 向 和 后 向 传播 。 这 里 实现 时 通过 二 项 分 布 随机 数 来 控制 神经 元 是 否 启 用 ,如 果 
随机 数 取 值 为 1 则 启用 ,和 否则 不 启用 。 正 向 传播 函数 的 实现 如 下 : 


template<typename Dtype> 
void DropoutLayer« Dtype» ::Еогмага сри (const vector<Blob<Dtype> * >& bottom, 
const vector«Blob«Dtype» * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data(); 
Dtype* top data-top[0]-»mutable cpu data(); 
unsigned int* mask-rand vec .mutable cpu data(); 
const int count-bottom|[0]-» count () ; 
if(this-»phase -- TRAIN) { // 如 果 在 训练 阶段 ,启用 dropout 机 制 
// 先 生成 随机 数 , 伯 努 利 二 项 分 布 ,随机 数 存 放 在 掩 码 数组 mask 中 , 值 为 
//0 或 者 1, 以 threshold 的 概率 取 值 1, 以 1.- threshold 的 概率 取 值 0 
caffe rng bernoulli (count, 1.-threshold , mask); 


for(int i=0; i<count;++i) { 
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// 输 出 值 要 么 为 输入 值 ( 即 恒 等 变换 ) ,要 么 为 0 
top data[i]-bottom data[i] * mask[i] * scale ; 
} 
} else { // 在 测试 阶段 不 启用 dropout 机 制 ,直接 将 输入 值 原样 复制 输出 
caffe copy (bottom[ 0]- > сошпё (), bottom data, top data); 


} 
反 向 传播 函数 的 实现 如 下 : 


template<typename Dtype> 
void DropoutLayer< Dtype> ::Backward cpu (const vector<Blob<Dtype> * >& top, 
const vector<bool>& propagate down, 
const vector<Blob<Dtype> * >& bottom) { 
if (propagate down[0]) { 
const Dtype* top diff-top[0]-»cpu diff(); 
Dtype* bottom diff-bottom[0]-»mutable cpu diff(); 
if(this-»phase -- TRAIN) ( // 如 果 在 训练 阶段 ,启用 dropout 机 制 
// 先 获取 正 向 传播 时 的 掩 码 数组 
const unsigned int * mask=rand_vec_.cpu_data(); 
const int count=bottom[0]->count (); 
for(int i=0; i<count;++i) { 
// 导 数值 要 么 为 0, 要 么 为 输入 值 
bottom diff[i]-top diff[i] * mask[i] * scale ; 
} 
} else { // 在 测试 阶段 ,不 实用 dropout 机 制 
caffe copy(top[0]-»count(), top diff, bottom diff); 


) 


15.76 ARE 


全 连接 层 乘 权重 矩阵 和 加 偏 置 项 操作 没有 让 神经 元 层 完成 ,而 是 由 独立 的 内 积 层 完成 ， 
这 样 做 更 利于 代码 的 复 用 和 组 合 。 内 积 层 的 输入 数据 是 一 个 向 量 , 计 算 该 向 量 与 权重 矩阵 
的 乘积 ,如 果 需 要 还 要 加 上 偏 置 .最 后 产生 输出 。 计 算 公式 为 
ио = WP xv» + po 
各 个 变量 的 定义 参考 9. 1. 3 节 。 反 向 传播 时 计算 本 层 权 重 与 偏 置 的 导数 ,另外 还 要 计 
算 误 差 项 ， 
64-0 = qw? )T50 
上 面 的 公式 中 向 量 是 列 向 量 ,而 编程 实现 时 是 行 向 量 , 因 此 是 对 上 面 这 些 公 式 的 转 置 ， 
后 面 会 详细 介绍 。 正 向 传播 函数 实现 如 下 : 


template< typename Dtype> 
void InnerProductLayer<Dtype> ::Forward cpu(const vector<Blob<Dtype> * >& bottom, 
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const vector<Blob<Dtype> * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data(); // 输 入 向 量 
Dtype* top data-top[0]-»mutable cpu data(); // 输 出 向 量 
const Dtype* weight-this-»blobs [0]-»cpu data; ЛЕЖЕ 
// 首 先 乘 上 权重 矩阵 xW 得 到 向 量 y,x 是 行 向 量 , 乘 积 y 还 是 一 个 行 向 量 
caffe cpu gemm<Dtype> (CblasNoTrans, transpose ? CblasNoTrans : CblasTrans, 
M, N_, K_, (Dtype)1., 
bottom_data, weight, (Dtype)0., top_data); 
// 然 后 加 上 偏 置 项 
if(bias term ) { 
caffe cpu gemm«Dtype» (CblasNoTrans, CblasNoTrans, M , N , 1, (Dtype)1., 
bias multiplier .cpu data(), 
this-»blobs [1]-»cpu data(), (Dtype)1., top data); 


) 


反 向 传播 函数 根据 传人 的 误差 项 计算 权重 矩阵、 偏 置 向 量 的 梯度 值 ,并 计算 本 层 的 误差 
值 。 这 里 是 同时 对 多 个 样本 进行 计算 的 。 实 现代 码 如 下 : 


template<typename Dtype> 
void InnerProductLayer< Dtype> : :Backward_cpu(const vector<Blob<Dtype> * > & top, 
const vector<bool>& propagate down, 
const vector<Blob<Dtype> * >& bottom) { 
if(this-»param propagate down [0]) { 
// 后 一 层 传 过 来 的 误差 向 量 
const Dtype* top diff-top[0]-»cpu diff(); 
// 本 层 的 输入 值 
const Dtype * bottom data-bottom[0]-»cpu data(); 
// 计 算 权重 的 梯度 , 即 хезад 09 


if(transpose ) { / [An ЖЕ Ve dE f 
caffe cpu gemm« Dtype» (CblasTrans, CblasNoTrans, 
K,N,M, 


(Dtype)l., bottom data, top diff, 
(Dtype)l., this-»blobs [0]-»mutable cpu diff()); 
} else ( 
caffe_cpu_gemm<Dtype> (CblasTrans, CblasNoTrans, 
N,K,M, 
(Dtype)1., top_diff, bottom_data, 
(Dtype)1., this->blobs [0]-»mutable cpu diff()); 


} 

// 计 算 偏 置 项 的 梯度 

if(bias term && this->param propagate down [1]) { 
const Dtype* top diff-top[0]-»cpu diff(); 
//Gradient with respect to bias 


caffe cpu gemv«Dtype» (CblasTrans, M , N , (Dtype)1., top diff, 
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bias multiplier .cpu data(), (Dtype)1., 
this-»blobs [1]-»mutable cpu diff()); 
} 
if (propagate_down[0]) { // 将 误差 传播 到 前 一 层 
const Dtype* top diff-top[0]-»cpu diff(); //8 =» 
//this->blobs [0] 存 放 的 是 本 层 的 权重 矩阵 
if(transpose ) { 
caffe cpu gemm« Dtype» (CblasNoTrans, CblasTrans, 
M,K,N, 
(Dtype)1., top diff, this->blobs [0]-»cpu data(), 
(Dtype)0., bottom[0]-»mutable cpu diff()); 
} else { 
caffe_cpu_gemm<Dtype> (CblasNoTrans, CblasNoTrans, 
M,K,N, 
(Dtype)1., top diff, this->blobs [0]-»cpu data(), 
(Dtype)0., bottom[0]-»mutable cpu diff()); 


) 


1577 损失 层 
损失 层 实 现 各 种 类 型 的 损失 函数 ,它们 仅 在 训练 阶段 使 用 ,是 神经 网 络 的 最 后 一 层 ,也 
是 反 向 传播 过 程 的 起 点 。 损 失 层 的 功能 是 在 正 向 传播 时 根据 传人 的 数据 以 及 函数 的 参数 计 
算 损 失 函 数 的 值 , 送 入 到 求解 器 中 使 用 ;在 反 向 传播 时 计算 损失 函数 对 输入 数据 的 导数 值 ， 
传人 前 一 层 。 表 15. 3 列 出 了 Caffe 支持 的 各 种 损失 函数 和 它们 的 导数 。 
表 15.3 Caffe 支持 的 各 种 损失 函数 与 它们 的 导数 
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续 表 
类 型 损失 函数 导 数 
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各 种 损失 函数 由 LossLayer 的 派生 类 实现 ,需要 实现 自己 的 正 向 传播 函数 、 反 向 传播 函 
数 。 如 果 要 实现 自己 定义 的 损失 函数 ,需要 从 LossLayer 类 派生 出 一 个 类 ,实现 正 向 传播 、 
反 向 传播 等 函数 。 类 LossLayer 是 所 有 损失 层 的 基 类 ,继承 自 Layer 类 。 这 个 类 并 没有 做 
什么 具体 的 工作 ,核心 函数 的 实现 都 交 给 派生 类 来 完成 ,下 面 来 分 析 各 种 损失 函数 的 实现 。 

类 EuclideanLossLayer 实现 欧 氏 距离 损失 函数 。 假 设 有 ?7 个 样本 ,损失 层 接收 的 输入 
向 量 为 ,样本 的 标签 向 量 为 y;。 正 向 传播 函数 计算 n 个 样本 的 损失 函数 值 , 其 输入 值 是 所 
有 样本 的 预测 值 ,以 及 所 有 样本 的 标签 值 。 实 现代 码 如 下 : 


template<typename Dtype> 
void EuclideanLossLayer< Dtype> ::Еогмага сри ( 


const vector<Blob<Dtype> * > & bottom, //@ A Ta Ht p. y 
const vector<Blob<Dtype> * >& top) { // 输 出 ,存放 损失 函数 值 
int count=bottom[0]->count (); // 输 入 向 量 的 维 数 ,NX cx H> W 
// 两 个 向 量 相 减 , 结 果 存 人 diff_ 
caffe sub( 
count, 


bottom[0]-»cpu data()，// 网 络 的 输出 值 (BB ) , rt FE AS AD d FF Tk — FE 
bottom|1]-»cpu data()，// 样 本 的 标签 值 ( 即 y;) ,所 有 样本 的 都 存在 一 起 
diff .mutable cpu data()); //fi-y: 

ERNER у) (f: — y: ) 

Dtype dot-caffe cpu dot(count, diff .cpu data(), diff .cpu data()); 

// 除 以 2n, bottom[ 0]- > num () FEAR п 

Dtype loss-dot/bottom|O0]- > пит () /Dtype (2) ; 

top[0]-»mutable cpu data ()[0]-10ss; 

k 


反 向 传播 函数 计算 目标 函数 对 输入 的 梯度 ,在 这 里 输入 是 3,y, 对 它们 分 别 求 梯度 。 反 
向 传播 函数 的 实现 代码 如 下 : 
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template< typename Dtype> 
void EuclideanLossLayer« Dtype> : :Backward_cpu(const vector<Blob<Dtype> * >& top, 
const vector«bool»& propagate down, const vector«Blob«Dtype» * »& bottom) { 
//i=0, 15 BIRGR Es y RF 
for(int i-0; i<2;++i) { 
if (propagate down[ ibt 
const Dtype sign- (i--0) ? 1 : -17 // 对 yi 求 导 时 ,需要 加 上 负 号 
//alpha 为 士 1/n 
const Dtype alpha-sign * top[0]->cpu_diff()[0]/bottom[i]->num(); 
/ AT € beta * Y+alpha * X 
caffe cpu axpby( 
bottom[i]-»count(), // 向 量 维 数 
alpha, //## alpha 
diff .cpu data(), //а 
Dtype(0), //## beta 
bottom[i]-»mutable cpu diff()); //b 


) 


类 SoftmaxWithLossLayer 实现 了 softmax Z Ж {ИЙ РА. B|] softmax 回归 的 损失 函 
数 。 实 现时 进行 了 拆 分 ,将 softmax 回归 中 的 线性 变换 部 分 ( 即 9"x) 交 给 内 积 层 实现 ,这 里 
的 softmax 只 实现 如 下 变换 : 


|+ = —_exp(x;) 


K 
expla) 
k=l 


其 中 ,x 是 本 层 的 输入 向 量 ;y 是 概率 估计 向 量 ;y" APE AS BY ELS as EEL, se SURE BLA PROC 
定义 为 
L —— y'ln у" 
样本 的 类 别 标签 中 只 有 一 个 分 量 为 1, 其 他 都 是 0, 这 在 11.4 节 中 已 经 介绍 过 。 假 设 标 
签 向 量 的 第 7 个 分 量 为 1 ,该 函数 的 导数 为 
aL __ 1 ayy 
92; y дз; 
下 面 分 两 种 情况 讨论 。 如 果 i 二 j( 即 y —D.i 


K 
exp(x;) > exp(a,) — ехр(т;)ехр(т;) 
д1. 1 ici 


дх; эг 
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Gi) 
(È exp XR ) 


K к 
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d= y) =y —» 


K 
by expCGr,) — exp(z;) 


j=k 











K 
р ехр(ть) 
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否则 有 
K 
> exp(xz,) 
aL 1 x EXP. (т; )ехр(т;) ica x Pp (=; )expCGr;) 
Ix; ; к. ex E 
Uli c (22 exp(z,) )° pon (2; expla) )’ 
k=1 k=1 
_ exp(zi) _ 
-一 一 
M expCr,) 


此 时 y;—0. 将 两 种 情况 合并 起 来 写成 向 量 形式 为 
у = y'—y 
— AR RE X. E D ae Е LON 
— У) pn q(x) 
其 中 ,z JR OY ЕЛЕН, p Ce) ЯП q Co Je ЙРЙ Л BE rfi. sc SCR ht Y wS B 
机 变量 ,两 个 概率 分 布 的 相似 度 。 类 别 标签 向 量 可 以 看 作 是 类 别 取 每 个 值 的 概率 ,神经 网 络 
输出 的 概率 估计 向 量 要 和 真实 的 样本 标签 向 量 接近 。 可 以 证 明 , 当 两 个 分 布 相等 的 时 候 , 交 
SURAT BME. BBE p Ca) Ja c EIZE SURE V F ER: 
f(x) 一 一 5 ailn x; 


і=1 


构造 拉 格 朗 日 乘 子 函数 : 
L(x,A) 一 一 > ailn x; +A( > Xi 一 1) 


i=l 


对 所 有 变量 求 偏 导数 ,并 令 偏 导数 为 0, 有 


最 后 解 得 


t= а; 


3tE— пр E. 28 ЖИ РА 000 Hessian 矩阵 为 
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显然 正定 ,因此 上 面 的 极 值 点 是 极 小 值 点 。 
正 向 传播 函数 的 实现 如 下 : 


template<typename Dtype> 
void SoftmaxWithLossLayer<Dtype> ::Forward cpu( 
const vector<Blob<Dtype> * >& bottom, const vector<Blob<Dtype> * >& top) { 
// 首 先 调 用 softmaxLayer 的 正 向 传播 函数 ,根据 输入 向 量 x 计算 出 它 属于 每 一 类 
// 的 概率 ,变换 之 后 产生 的 输出 存储 在 softmax top vec 中 , 即 了 
softmax_layer_->Forward(softmax_bottom_vec_, softmax top vec ); 
const Dtype* prob data-prob .cpu data(); 
const Dtype* label-bottom[1]-»cpu data(); 
int dim-prob .count()/outer num ; 
int count-0; 
Dtype loss-0; 
for(int i-0; i«outer num ;++i) { 
for(int j=0; j«inner num ; j++) ( 
// 取 出 样本 类 别 标签 值 label_value 
const int label_value=static_cast<int>(label[i * inner num +j]); 
if(has ignore label && label value--ignore label ) { 
continue; 
) 
DCHECK GE (label value, 0); 
DCHECK LT(label value, prob .shape(softmax axis )); 
// 累 加 ,在 这 里 用 到 了 label value 
loss -=109 (std: :max (prob_data[i * dim+label value * inner_num_+ 3]; 
Dtype(FLT MIN))); 


++count; 


} 
top[0]->mutable_cpu_data()[0]=loss/get_normalizer(normalization_, count); 


if (top.size()==2) { 
top[1]-»ShareData (prob ); 


) 
接 下 来 看 反 向 传播 函数 的 实现 : 


template< typename Dtype> 
void SoftmaxWithLossLayer<Dtype> ::Backward сри (const vector<Blob< Dtype> * >& top, 
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const vector<bool>& propagate down, const vector<Blob<Dtype> * >& bottom) { 
if(propagate down[1]) { 
LOG (FATAL) << this-> type () 
««" Layer cannot backpropagate to label inputs."; 
} 
її (propagate_down[ opt 
Dtype* bottom diff-bottom[0]-»mutable cpu diff(); 
const Dtype* prob data-prob .cpu data(); 
caffe copy(prob .count(), prob data, bottom diff); 
const Dtype * label-bottom[1]- >cpu data(); 
int dim-prob .count()/outer num ; 
int count-0; 
for (int i=0; i«outer num ;++i) ( 
for(int j=0; j«inner num ;++ј) { 
const int label value-static cast«int» (label[i * inner num *j]); 
if (has ignore label && label value-- ignore label ) { 
for(int c=0; c«bottom[ 0]- > shape (softmax axis );++с) ( 
bottom diff[i * dim*c * inner num *j]-0; 
) 
} else ( 
// 计 算 y* 一 了 
bottom diff[i * dim*label value * inner num +j] -=1; 


++count; 


} 

// 对 梯度 进行 缩放 ,get_normalizer 返回 归 一 化 因子 

Dtype loss weight-top[0]-»cpu diff()[0]/ 

get normalizer (normalization , count); 

caffe scal(prob .count(), loss weight, bottom diff); 


} 

类 SigmoidCrossEntropyLossLayer 实现 了 sigmoid Z X Wij Hi K PR BE. nj VA A pÑ AE 
softmax ZN MZDE. (М1 A TE Ie] ht x*, 首 先 对 这 个 向 量 进行 sigmoid 变换 , 然 
Ie SES ХИ IG PR (B. 是 训练 样本 数 ,p; 为 样本 的 标签 值 ,p; 是 神经 网 络 的 预测 输 
出 ,这 两 个 值 越 接近 交叉 炉 越 小 ,二 者 相等 时 函数 取得 最 小 值 。 函 数 的 导数 为 


à д р: == дф, 
ВЕ z L(a Pes (1— p) n E] 





Ox; n 


前 面 推导 过 sigmoid 函数 的 导数 , 带 入 上 式 得 到 
aL 1 | 1 p Eid " —1 5. : т 
a 1 (вава В+ ар) тва ю)=1 (Bi — bi) 


下 面 来 看 正 向 传播 函数 的 实现 : 








template< typename Dtype> 
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void SigmoidCrossEntropyLossLayer«Dtype» ::Forward cpu( 
const vector«Blob«Dtype» * >& bottom, const vector«Blob«Dtype» * >& top) {. 
sigmoid bottom vec [ 0] -bottom[ 0] ; 
// 先 进行 sigmoid 变换 
sigmoid layer -»Forward(sigmoid bottom vec , sigmoid top vec ); 
const Dtype * input data-bottom[ ol- »cpu data(); 
const Dtype* target-bottom|1]-»cpu data(); 
int valid count-0; 
Dtype loss-0; 
for (int i=0; i«bottom[0]-»count();**i) ( 
const int target value-static cast«int» (target[i]); 


if(has ignore label && target value- 





ignore label ) { 
continue; 
) 
loss --input data[i] * (target[i]- (input data[i]»-0)) - 
log(l*exp(input data[i]-2 * input data[i] * (input data[i]»-0))); 
**valid count; 
) 
normalizer -get normalizer(normalization , valid count); 
top[0]-»mutable cpu data()[0]-10oss/normalizer ; 
) 


接 下 来 看 反 向 传播 函数 的 实现 : 


template<typename Dtype> 
void SigmoidCrossEntropyLossLayer<Dtype> ::Backward cpu( 
const vector<Blob<Dtype> * >& top, const vector<bool>& propagate down, 
const vector<Blob<Dtype> * >& bottom) { 
if(propagate down[1]) ( 
LOG(FATAL)««this-»type() 
««" Layer cannot backpropagate to label inputs."; 
) 
if(propagate down[0]) ( 
// 首 先 ,计算 diff 
const int count=bottom[0]->count () ; 
const Dtype * sigmoid output data-sigmoid output -»cpu data(); 
const Dtype * target-bottom|1]-»cpu data(); 
Dtype* bottom diff-bottom[0]-»mutable cpu diff(); 
// 执 行 减法 
caffe sub(count, sigmoid output data, target, bottom diff); 
//Zero out gradient of ignored targets. 
if(has ignore label ) ( 
for(int i=0; i<count;++i) { 
const int target value-static cast«int» (target[i]); 
if(target value-- ignore label ) ( 
bottom diff[i]-0; 
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// 数 据 缩放 , 除 以 归 一 化 系数 

Dtype loss weight-top[0]-»cpu diff()[0]/normalizer ; 
caffe scal(count, loss weight, bottom diff); 


} 


Ж ContrastiveLossLayer 实现 了 对 比 损失 函数 。n 为 训练 样本 数 ,d; 为 向 量 a; Alb; 的 
欧 氏 距离 om 是 人 工 设 定 的 参数 。 函 数 的 输入 是 向 量 a; 和 4b;。 样 本 标签 的 取 值 为 0 或 者 1， 
函数 计算 公式 中 的 求 和 项 可 以 进行 简化 。 如 果 把 对 单个 样本 的 损失 函数 记 为 L;, 当 у,=1 
时 带 入 函数 的 定义 ,损失 函数 简化 为 


对 ai 的 梯度 为 

1 2 
«5,4: 
当时 y; — 0 时 带 入 函数 的 定义 ,损失 函数 简化 为 


L; = max (m—d?.0) 


v。L = v = 1 (a — b) 
P п 


对 a, 的 梯度 为 


max(m — d? ,0) 10а, b) 





V.bi=V 





1 

“2п 

上 面 的 导数 只 考虑 了 т—44#>0 BJ 4 т — 020 时 导数 为 0。 下 面 来 看 正 向 传播 
函数 的 实现 ， 


template<typename Dtype> 


void ContrastiveLossLayer< Dtype> ::Forward cpu( 


const vector«Blob«Dtype» * > & bottom, //bottom 是 输入 参数 ,存放 着 a Al b 
const vector<Blob<Dtype> * >& top) { //top 是 返回 值 
int count=bottom[ 0]- > count () ; //count 是 向 量 维 数 
caffe sub( // 计 算 个 样本 的 a- b 
count， 
bottom[0]-»cpu data(), // 向 量 a 
bottom[1]-»cpu data(), // 向 量 b 
diff .mutable cpu data()); // 结 果 a-b 


const int channels=bottom[ 0]->channels () ; 
//margin 就 是 公式 中 的 margin 
Dtype margin-this-» layer param .contrastive loss param().margin(); 
bool legacy version- 

this-»layer param .contrastive loss param().legacy version(); 
Dtype loss(0.0); 
for(int i-0; i«bottom[0]-»num();**i) ( 

//dist. sq 存放 距离 的 平方 , 即 二 范 数 的 平方 a° 

dist sq .mutable cpu data()[i]-caffe cpu dot (channels, 
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diff .cpu data()* (i* channels), diff .cpu data()* (i * channels) ); 
//bottom[2] 中 存放 的 是 向 量 y 
// 如 果 y:=1 RAH yi di (1— y; )max (margin—d,0)*=di 
if(static cast«int» (bottom[2]-»cpu data()[i])) { //similar pairs 
loss+=dist sq .cpu data [i]; 
}else { //dissimilar pairs 
if (legacy version) { 
loss*-std::max(margin-dist sq .cpu data()[i], Dtype(0.0)); 
} else ( 
Dtype dist=std: :max< Dtype> (margin- sqrt (dist_sq_.cpu_data() [i] Dy 
Dtype (0.0) )7 


loss+=dist * dist; 


} 
// 损 失 函 数值 除 以 2n 
loss-loss/static cast«Dtype» (bottom[ 0]->num())/Dtype (2); 
top[ 0]->mutable cpu data ()[0]-10ss; 
) 


接 下 来 看 反 向 传播 函数 的 实现 : 


template<typename Dtype> 
Void ContrastiveLossLayer<Dtype> : :Backward cpu (const vector<Blob<Dtype> * >& top, 
const vector<bool>& propagate down, const vector<Blob<Dtype> * >& bottom) { 
Dtype margin=this->layer_param_.contrastive_loss_param() .margin(); 
bool legacy version- 
this-»layer param .contrastive loss param().legacy version(); 
for(int i-0; i<2;++i) { // 分 别 对 а Al b ETT RS 
if(propagate down[i]) { 
const Dtype sign- 0)21:-1; // 对 b 求 导 时 ,要 乘 以 -1 
// 先 乘 以 后 一 层 传 过 来 的 梯度 top[0]->cpu_diff, 以 及 sign, 然 后 除 以 n 
const Dtype alpha-sign * top[0]-»cpu diff()[0] / 
static cast«Dtype» (bottom[i]-»num()); 
int num-bottom[i]-»num(); 
int channels-bottom[i]-»channels(); 
for(int j=0; j<num;++j) { 
Dtype * bout-bottom[i]-»mutable cpu diff (); 
if (static_cast<int> (bottom[2]-»cpu data 0[3])) { 





caffe cpu axpby( 
channels, 
alpha, 
diff .cpu data()* (j * channels), 
Dtype(0.0), 
bout+ (j * channels)); 

) else ( 
Dtype mdist (0.0) ; 
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Dtype beta (0.0); 
if(legacy version) ( 
mdist-margin-dist sq .cpu data() L1 H 
beta--alpha; 
} else ( 
Dtype dist=sqrt (dist_sq_.cpu_data()[j]); 
mdist=margin- dist; 
beta--alpha * mdist /(dist+Dtype(le-4)); 
) 
if (mdist>Dtype(0.0)) { 
caffe cpu axpby( 
channels, 
beta, 
diff .cpu data()* (j * channels), 
Dtype(0.0), 
bout+ (j * channels)); 
) else ( 


caffe set(channels, Dtype(0), bout+ (j * channels)); 


) 


类 MultinomialLogisticLossLayer 实现 类 多 项 式 logistic 损失 函数 ,函数 的 输入 值 为 样 
本 的 类 别 标签 以 及 样本 属于 第 i 类 的 概率 p;, 总 类 型 数 为 k&, 如 果 yi Д ICy— DUROS 1. 
否则 为 0。 下 面 来 看 正 向 传播 函数 的 实现 : 


template<typename Dtype> 
void MultinomialLogisticLossLayer<Dtype> ::Forward cpu( 
const vector<Blob<Dtype> * >& bottom, const vector<Blob<Dtype> * >& top) { 
const Dtype* bottom data-bottom[0]-»cpu data(); 
const Dtype* bottom label-bottom[1]-»cpu data(); 
int num-bottom[0]-»num(); 
int dim-bottom[0]- > count () /bottom[ 0]- »num() ; 
Dtype loss-0; 
for(int i-0; i<num;++i) ( 
int label-static cast«int» (bottom label[i]); //% 工 个 样本 的 标签 值 
Dtype prob-std::max( //% 工 个 样本 对 第 label 类 的 概率 值 
// 对 概率 值 做 截断 处 理 , 避 免 对 0 计算 对 数值 
bottom data[i * dim+label], Dtype(kLOG THRESHOLD)); 
loss --1og (prob); 
) 
top[0]-»mutable cpu data ()[0]-1oss/num; 
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接 下 来 看 反 向 传播 函数 的 实现 : 


template<typename Dtype> 
void MultinomialLogisticLossLayer<Dtype> ::Backward cpu( 
const vector<Blob<Dtype> * »& top, const vector«bool» & propagate down, 
const vector«Blob«Dtype» * »& bottom) { 
if(propagate down[1]) ( 
LOG(FATAL)««this-»type() 
««" Layer cannot backpropagate to label inputs."; 
) 
if(propagate down[0]) ( 
const Dtype * bottom data-bottom[0]-»cpu data (); 
const Dtype* bottom label-bottom[1]-»cpu data(); 
Dtype* bottom diff- bottom[ 0] -»mutable cpu diff(); 
int num-bottom|0]-»num(); 
int dim=bottom[ 0]- > count () /bottom[ 0]- »num() ; 
caffe set(bottom[0]-»count(), Dtype(0), bottom diff); 
const Dtype scale--top[0]-»cpu diff ()[0]/num; 
for (int i-0; i<num;++i) { 
int label-static cast«int» (bottom label[i]); 
Dtype prob- std: :max ( // 对 概率 值 做 截断 处 理 ,避免 对 0 计算 对 数值 
bottom data[i * dim+label], Dtype(kLOG THRESHOLD)); 
bottom diff[i * dim*label]-scale/prob; 


15.7.8 ”网 络 的 实现 一 一 Net 类 


Net 类 表示 神经 网 络 , 由 多 个 层 组 成 ,这 个 类 最 重要 的 功能 就 是 执行 正 向 传播 、 反 向 传 
播 操 作 ,前 者 既 要 用 于 网 络 的 预测 算法 ,也 要 用 于 训练 算法 ;后 者 只 用 于 网 络 的 训练 。 

函数 ForwardFromTo 是 正 向 传播 的 实现 ,对 网 络 的 第 start 到 end 层 进行 正 向 传播 ， 
函数 返回 损失 函数 的 值 loss, 第 i 层 的 输入 值 存放 在 bottom_vecs_[i] 中 .输出 值 存放 在 top 
_vecs_[i] 中 ,函数 最 终 是 调用 Layer 类 的 Forward 函数 。 代 码 如 下 : 


template<typename Dtype> 
Dtype Net<Dtype> ::ForwardFromTo (int start, int end) { 
CHECK СЕ (start, 0); 
CHECK LT(end, layers_.size()); 
Dtype loss=0; 
// 对 第 start 到 end Jz 
for(int i=start; i<=end;++i) { 
// 先 调用 用 户 注册 的 回调 函数 
for(int c=0; c<before forward .size();++cC) { 


before forward [c]-»run(i); 
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} 

// 调 用 Layer 的 正 向 传播 函数 ,bottom vecs [i] 是 第 i 层 的 输入 数据 
//top_vecs [i]f&& 工 层 的 输出 数据 

Dtype layer_loss= layers [ 1] -»Forward (bottom vecs [ i] š top_vecs_[ i] he 
// 累 加 第 工 层 的 损失 函数 值 

loss+=layer_loss; 


if(debug info ) ( ForwardDebugInfo(i); } 


// 调 用 用 户 注册 的 回调 函数 
for (int c=0; c<after forward .size();++c) { 


after forward [c]-»run(i); 


) 
return loss; // 返 回 总 的 损失 值 
} 


函数 BackwardFrom To 是 反 向 传播 功能 的 真正 实现 ,对 网 络 的 第 start 到 end 层 进行 
反 向 传播 ,注意 ,这 里 start 比 end 要 大 ,第 i 层 的 输入 值 存放 在 vop_vecs_[ i rh ,输出 值 存 放 
在 bottom_vecs_[ 训 中 。 代 码 如 下 : 


template< typename Dtype> 
void Net<Dtype> ::BackwardFromTo (int start, int end) { 
CHECK GE (end, 0); 
CHECK_LT (start, layers_.size()); 
for (int i=start; i>=end; --i) { 
// 先 调用 用 户 注册 的 回调 函数 
for(int c=0; c«before backward .size();++c) { 
before backward [c]-»run(i); 
1 
// 对 第 i AEA БО Hed EX HL, top_vecs [ij] 是 输入 值 ,bottom vecs [i)f& 
// 输 出 值 
if(layer need backward [i]) { 
layers [i]-»Backward( 
top vecs [i], bottom need backward [i], bottom vecs [i]); 
if(debug info ) ( BackwardDebugInfo (i); } 
} 
// 再 次 调用 用 户 注册 的 回调 函数 
for (int c=0; c<after backward .size();++c) { 
after backward [c]->run(i); 
} 


} 


函数 Update 更 新 网 络 的 参数 ,这 些 参数 通过 学 习 得 到 ,如 权重 和 偏 置 项 ,这 个 函数 将 
被 梯度 下 降 法 的 求解 器 类 Solver 调用 .最 终 调用 了 Blob 类 的 Update 函数 。 代 码 如 下 : 


template< typename Dtype> 
void Net<Dtype> ::Update() { 
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for(int i=0; i<learnable params .size();++i) { 
// 最 终 是 调用 的 Blob 类 的 Update 函数 实现 参数 更 新 
learnable params [i]-»Update(); 


H 


15.7.9 求解 器 


求解 器 Solver 的 作用 是 求解 训练 时 的 最 小 化 问题 ,实现 梯度 下 降 法 。 整 个 训练 过 程 由 
Solver 和 Net 两 个 类 配合 完成 。Solver 的 作用 是 求解 最 优化 问题 ,执行 参数 更 新 ;Net 的 作 
用 是 执行 正 向 传播 函数 ,生成 损失 函数 值 ; 执 行 反 向 传播 函数 ,计算 参数 的 梯度 ,并 执行 参数 
更 新 操作 。 假 设 梯度 下 降 法 每 次 选择 N 个 样本 进行 迭代 , 则 每 一 轮 的 迭代 过 程 如 下 。 

CD 对 这 N 个 输入 图 像 进 行 正 向 传播 ,得 到 损失 函数 值 ,同时 ,还 记 住 了 神经 网 络 每 一 


层 的 输出 值 。 
(2) 执行 反 向 传播 函数 ,计算 每 一 层 参 数 的 梯度 值 和 误差 项 ,如 果 必 要 ,将 误差 项 传播 
到 前 一 层 。 


(3) 求解 器 根据 Net 计算 出 来 的 参数 梯度 值 执行 更 新 操作 ,更 新 参数 的 值 。 

接 下 来 先 介绍 Caffe 中 支持 的 各 种 梯度 下 降 法 ,然后 分 析 Solver 及 其 派生 类 的 实现 代 
人 码 , 最 后 给 出 神经 网 络 的 整个 训练 流程 。 

Mini-Batch 随机 梯度 下 降 法 的 原理 在 15. 2. 3 节 中 已 经 介绍 。 求 解 器 在 前 向 传播 阶段 
计算 损失 函数 值 , 在 反 向 传播 阶段 计算 梯度 值 并 对 参数 进行 更 新 。 参 数 的 更 新 值 由 求解 器 
根据 误差 项 的 梯度 、 正 则 化 项 的 梯度 计算 得 到 ,为 了 加 快 算法 的 收敛 ,可 能 还 会 使 用 动量 项 。 

标准 的 带动 量 项 的 随机 梯度 下 降 法 通过 负 梯 度 、 上 次 权重 更 新 值 的 线性 组 合 来 更 新 权 
重 的 值 。 其 中 ,学 习 率 是 负 梯 度 的 权重 系数 ,动量 系数 是 上 一 次 权重 更 新 值 的 权重 系数 。 带 
动量 项 的 Mini-Batch 梯度 下 降 法 权重 更 新 公式 为 

Vin =— aV wL (W,) 十 pV， 

Wn = W, +V 
其 中 ,a 和 jy 是 人 工 设 定 的 系数 ,前 者 是 学 习 率 ,后 者 是 动量 项 系数 ;V, 是 动量 项 。 动量 项 累 
积 了 之 前 的 梯度 更 新 值 ,并 且 是 按照 指数 级 衰减 做 的 平均 。 求 解 器 需要 使 用 一 些 人 工 设 定 
的 参数 ,比如 上 面 的 a 和 jy 值 ,这 些 参数 放 在 求解 器 的 配置 文件 中 ,这 种 文件 的 例子 在 前 面 
介绍 过 。 下 面 是 典型 的 求解 器 配置 参数 : 


base 1r: 0.01 // 基 础 学 习 率 , 即 上 面 公式 中 的 ,会 动态 调整 
lr policy: "step"  // 学 习 率 调整 策略 ,在 这 里 使 用 step 策略 , 即 逐 步 训 减 学 习 率 的 值 
gamma: 0.1 // 学 习 率 衰减 系数 


stepsize: 100000 ZIEN 100000 次 做 一 次 学 习 率 衰减 
max iter: 350000 // 最 大 迭代 次 数 
momentum: 0.9 // 动 量 项 系数 , 即 上 面 公式 中 的 н 


前 面 给 出 了 标准 的 随机 梯度 下 降 法 (带动 量 项 ) 的 迭代 公式 , 接 下 来 介绍 Caffe 中 支持 
的 各 种 改进 型 的 梯度 下 降 法 。 所 有 这 些 算 法 的 输入 都 是 参数 上 一 轮 迭 代 的 值 、 参 数 的 梯度 
值 ,以 及 其 他 人 工 设 定 的 参数 。 下 面 介绍 各 自 改进 的 梯度 下 降 法 。 
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AdaGrad 即 Adaptive Gradient #09. J& Bé EF Е de EL А k E. AdaGrad 根据 
前 几 轮 迭代 时 的 历史 梯度 值 动态 调整 学 习 率 , 且 优 化 向 量 的 每 一 个 分 量 都 有 自己 的 学 习 率 。 
参数 更 新 公式 为 
(g); 


IIg) +e 
j=1 


其 中 ,a 是 学 习 因 子 ;g, 是 第 t 次 迭代 时 参数 的 梯度 向 量 ;e 是 一 个 很 小 的 正 数 。 为 了 避免 除 
0 操作 ,下 标 i 表 示 向 量 的 分 量 。 与 标准 梯度 下 降 法 唯一 不 同 的 是 多 了 分 母 中 的 这 一 项 , 它 
累积 了 到 本 次 迭代 为 止 梯 度 的 历史 值 信息 用 于 生成 梯度 下 降 的 系数 值 。 根 据 上 式 , 历 史 导 
数值 的 绝对 值 越 大 分 量 学 习 率 越 小 ,反之 越 大 。 虽 然 实现 了 自 适 应 学 习 率 ,但 这 种 算法 还 是 
存在 问题 : 需要 人 工 设 置 一 个 全 局 的 学 习 率 e, 随 着 时 间 的 累积 ,上 式 中 的 分 母 会 越 来 越 大 ， 
导致 学 习 率 趋向 于 0, 参 数 无 法 有 效 更 新 。 

RMSProp 算法 509 对 AdaGrad 的 改进 ,避免 了 长 期 累积 梯度 值 所 导致 的 学 习 率 趋向 于 
0 的 问题 。 具 体 做 法 是 由 梯度 值 构造 一 个 向 量 MS ,初始 化 为 0, 按 照 衰减 系数 累积 了 历史 
的 梯度 平方 值 。 更 新 公式 为 

RMS ((x,);) = 9RMS ((х);) + (1—8) (в): 

AdaGrad 直接 累加 所 有 历史 梯度 的 平方 和 ,而 这 里 将 历史 梯度 平方 值 按照 8 衰减 之 后 

再 累加 。 参 数 更 新 公式 为 








(хы); (x,);—@ 
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ARMS), 
其 中 ,8 是 人 工 设 定 的 参数 ,与 AdaGrad 一 样 ,这 里 也 需要 人 工 指定 的 全 局 学 习 率 a, 
AdaDelta 算法 中 也 是 对 AdaGrad 的 改进 ,避免 了 长 期 累积 梯度 值 所 导致 的 学 习 率 趋 
向 于 0 的 问题 ,另外 ,还 去 掉 了 对 人 工 设置 的 全 局 学 习 率 的 依赖 。 假 设 要 优化 的 参数 为 x， 
梯度 下 降 法 第 1 次 迭代 时 计算 出 来 的 参数 梯度 值 为 g,。 算 法 首先 初始 化 如 下 两 个 向 量 为 0 
向 量 : 


(хы); 





E[g'], = 0 
E[Ax?], = 0 
其 中 ,E [g?] 是 梯度 平方 (对 每 个 分 量 分 别 平分 ) 的 累计 值 ,更 新 公式 为 
Eig l: = oE [81 + (1— p)&: 
在 这 里 g 是 向 量 每 个 元 素 分 别 计算 平方 .后面 所 有 的 计算 公式 都 是 对 向 量 的 每 个 分 量 
进行 。 接 下 来 计算 如 下 RMS М: 
RMS [g], = /E[g'], +e 
这 也 是 一 个 向 量 , 计 算 时 分 别 对 向 量 的 每 个 分 量 进行 。 然 后 计算 参数 的 更 新 值 : 
RMS[Ax],-1 
^ RMS[g], 8 


RMS[Ax],-: 的 计算 公式 与 这 个 类 似 。 这 个 更 新 值 同样 通过 梯度 来 构造 ,只 不 过 学 习 
率 是 通过 梯度 的 历史 值 确定 的 。 更 新 公式 为 
E[Ax' ], = pE [Ax] + (1—p) Ax 
参数 更 新 的 迭代 公式 为 


Ax, = 


w 
400; 机 器 学 习 与 应 用 
хн = x, + Ax, 


Adam 算法 50 全称 为 Adaptive Moment Estimation , 它 整 合 了 自 适 应 学 习 率 与 动量 项 。 算 
法 用 梯度 构造 了 两 个 向 量 m 和 wv, 它们 的 初始 值 为 0, 更 新 公式 为 

(m,); = Bi (ma )i + A — Br) (80): 

(Vi): = & (0-1): + (0 — A) (T 
Жр. ug. 是 人 工 指定 的 参数 ;为 向 量 的 分 量 下 标 。 依 靠 这 两 个 值 构造 参数 的 更 新 值 , 参 
数 的 更 新 公式 为 
y 1— (8): (т, ); 
1— (8): J(w) +e 
在 这 里 ,m 类 似 于 动量 项 ,用 wv 来 构造 学 习 率 。 

NAG 算法 由 Nesterov 提出 ,类 似 于 动量 项 梯度 下 降 法 。 与 动量 项 梯度 下 降 法 的 更 新 
公式 类 似 ,NAG 算法 构造 一 个 向 量 v, 初 始 值 为 0。w 的 更 新 公式 为 
vn = uv, — aVL (x, + pv, ) 








(Хы); (x,); а 


参数 的 更 新 公式 为 
X = x, + Va 

与 带动 量 项 的 SGD 相 比 ,NAG 只 是 计算 梯度 时 用 的 参数 值 不 同 ,NAG 计算 梯度 时 考 
虑 了 动量 项 ,使 用 的 是 x, Био, 

除了 上 面 介绍 的 算法 ,还 有 更 复杂 的 一 阶 优化 技术 。 在 神经 网 络 的 优化 中 一 般 使 用 梯 
度 下 降 法 而 不 使 用 牛顿 法 这 样 的 二 阶 优化 技术 ,原因 主要 有 以 下 几 点 。 

COD 神经 网 络 的 参数 规模 太 大 ,已 经 到 了 亿 数 量 级 ,如 果 参 数 个 数 为 ,梯度 下 降 法 每 一 
轮 迭 代 的 时 间 复 杂 度 是 O(n) ,牛顿 法 为 O(n?) ,时 间 开 销 太 大 。 

(2) 由 于 神经 网 络 是 复杂 的 复合 函数 , 层 数 过 多 的 时 候 计 算 Hessian 矩阵 或 者 其 近似 
矩阵 都 不 容易 。 当 数据 规模 不 大 时 也 可 以 采用 二 阶 优化 技术 。 

参数 初始 化 和 动量 项 对 算法 的 收敛 都 至 关 重 要 ,在 文献 [9] 中 ,Sutskever 等 人 对 这 两 方 
面 的 因素 进行 了 分 析 。 文 献 [9] 的 观点 认为 ,对 于 深度 神经 网 络 和 循环 神经 网 络 的 训练 优化 
问题 求解 ,权重 初始 值 和 动量 项 都 很 重要 。 如 果 初 始 值 设置 不 当 , 即 使 使 用 动量 项 也 很 难 收 
敛 到 好 的 效果 ;如 果 初 始 值 设 置 得 很 好 ,但 不 使 用 动量 项 ,收敛 效果 也 打折 扣 。 文 章 研究 了 
配合 精心 设计 的 初始 化 策略 ,以 及 不 同 的 动量 项 加 速 时 的 随机 梯度 下 降 法 的 有 效 性 。 更 多 
的 随机 梯度 下 降 法 实现 技巧 可 以 参考 文献 [8] 和 [14]。 

接 下 来 分 析 每 种 算法 的 实现 。 各 种 梯度 下 降 法 由 求解 器 Solver 类 的 派生 类 来 完成 。 


图 15. 12 是 各 个 类 的 继承 关系 。 
Solver 


SGDSolver 









































AdaDeltaSolver AdaGradSolver AdamSolver | NesterovSolver RMSPropSolver 


图 15.12 求解 器 类 的 继承 关系 
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其 中 ,Solver 是 求解 器 的 基 类 ,定义 了 求解 器 的 基本 行为 。SGDSolver 类 实现 标准 的 随 
机 梯度 下 降 法 ,默认 的 使 用 该 类 。 另 外 5 个 类 都 继承 自 SGDSolver, 实 现 了 前 面 讲述 的 5 种 
变形 的 梯度 下 降 法 。 

Solver 类 是 求解 器 的 基 类 ,这 是 一 个 抽象 类 。 这 个 类 的 重点 是 Solve 和 Step 函数 , 它 
们 实现 了 梯度 下 降 法 求解 的 核心 ,其 中 前 者 是 求解 的 接口 函数 ,后 者 是 梯度 下 降 迭 代 循环 ， 
下 面 我 们 分 别 进行 介绍 。 

Step 函数 是 求解 最 优化 问题 的 主 迭 代 循 环 。 代 码 如 下 : 


template<typename Dtype> 
void Solver<Dtype> ::Step (int iters) ( 
const int start_iter=iter_; // 初 始 和 迭代 次 数 
Const int stop_iter=iter_+iters; //# ES КЖ 
// 存 储 前 average loss 次 损失 函数 值 
int average loss-this-»param .average loss(); 
losses .clear(); 
smoothed loss -0; 
iteration timer .Start(); 
// 主 循环 迭代 ,直到 达到 终止 迭代 的 次 数 stop iter 
while(iter «stop iter) { 
// 先 清除 网 络 的 误差 项 值 
net -»ClearParamDiffs(); 
// 每 迭代 test. interval 次 对 网 络 做 一 次 测试 
if (param_.test_interval() && iter $ param .test interval()-- 
&&(iter »0 || param .test initialization())) { 
if(Caffe::root solver()) ( 
// 测 试 网 络 , 即 正 向 传播 
TestA11(); 
} 
if (requested_early exit_) { 
// 如 果 需 要 提前 退出 
break; 
} 
} 
// 执 行 回调 函数 
for (int i=0; i<callbacks .size();++i) { 
callbacks [i]->on_start(); 
} 
const bool display-param .display() && iter_% param_.display()==0; 
net -»set debug info(display && param .debug info()); 
// 累 加 损失 函数 值 和 梯度 值 , 这 是 核心 部 分 
Dtype loss=0; 
//iter_size fE solver.prototxt 中 设置 ,实际 上 的 batch_size-iter_size * 
//batch size 
//iter_size fE SolverParameter 中 定义 ,这 个 变量 的 默认 值 为 1, 其 含义 是 ,每 
// 次 梯度 下 降 迁 代 时 执行 iter size * batch size 次 正 向 . 反 向 传播 操作 来 累积 梯 
// 度 值 
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for(int i=0; i<param_.iter_size();++i) { 
// 进 行 一 轮 正 向 、 反 向 传播 ,这 个 函数 是 关键 ,在 Net 类 中 已 经 讲述 过 
// 经 过 这 一 步 , 已 经 计算 出 了 梯度 值 
losst-net -»ForwardBackward(); 
} 
loss /-param .iter size(); // 计 算 损失 函数 的 均值 
// 更 新 损失 函数 值 
UpdatesmoothedLoss (1055, start iter, average loss); 
// 下 面 的 代码 用 于 显示 训练 信息 ,可 以 忽略 
if(display) { 
float lapse-iteration timer .Seconds(); 
float per s- (iter -iterations last ) /(lapse ? lapse : 1); 
LOG IF(INFO, Caffe::root solver())««"Iteration "<<iter_ 
<<"("<<per_s<<" iter/s, "<<lapse<<"s/" 
<<param_.display()<<" iters), loss="<<smoothed_loss_; 
iteration_timer_.Start(); 
iterations last -iter ; 
const vector«Blob« Dtype» * > & result-net -»output blobs(); 
int score index-0; 
// 下 面 的 代码 用 于 显示 训练 信息 
for (int j=0; j<result.size();++j) { 
const Dtype* result vec-result[j]-»cpu data(); 
const string& output name- 
net -»blob names ()[net_->output_blob indices ()[j]]; 
const Dtype loss weight- 
net -»blob loss weights()[net -»output blob indices () [31]; 
for(int k=0; k«result[j]-»count();*-*k) { 
ostringstream loss_msg_stream; 
if(loss weight) { 
loss msg stream««"(* "<<1055 weight 
««"-"««loss weight * result vec[k]««" loss)"; 
) 
LOG_IF(INFO, Caffe::root_solver())<<" Train Net output #" 
<<score_index++<<": "<<output_name<<"=" 
««result vec[k]««1oss msg stream.str(); 


} 
// 调 用 回调 函数 ,梯度 准备 就 绪 
for(int i=0; i<callbacks .size();++i) { 
callbacks [i]->on gradients ready(); 
} 
// 更 新 网 络 的 参数 ,在 基 类 中 ,并 没有 实现 该 函数 , 留 给 派生 类 实现 
// 这 是 第 二 个 关键 的 函数 ,在 后 面 各 种 solver 中 我 们 将 重点 分 析 它 的 实现 
ApplyUpdate (); 
// 和 迭代 次 数 加 1, 这 个 值 也 是 参数 的 更 新 次 数 


i 
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SolverAction: :Enum request=GetRequestedAction (); 
// 保 存 快照 值 
if((param .snapshot () 
&& iter % param .snapshot()==0 
&& Caffe::root solver()) l! 
(request==SolverAction::SNAPSHOT)) { 
Snapshot () 7 
} 
if(SolverAction::STOP-- request) { 
requested early exit -true; 
// 如 果 需 要 退出 迭代 , 则 终止 循环 


break; 


} 


这 个 函数 的 关键 是 调用 Net 类 的 ForwardBackward 函数 执行 正 向 反 向 传播 操作 ,计算 
出 参数 的 梯度 值 , 前 面 已 经 分 析 过 ,这 个 函数 最 终 又 是 调用 Net 类 的 Forward 和 Backward 
函数 ;调用 派生 类 的 ApplyUpdate 函数 更 新 网 络 的 参数 ,这 个 函数 在 Solver 类 中 并 没有 
实现 。 

Step 函数 的 执行 流程 如 图 15. 13 所 示 ( 注 意 ,这 里 我 们 忽略 了 一 些 非 核心 逻辑 ,只 关注 


最 主要 的 步骤 ) 。 
开始 ClearParamDiffs, 
清除 误差 值 
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图 15.13 Step 函数 的 执行 流程 
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整个 函数 有 两 层 循环 ,外 层 循环 由 iter 变量 控制 ,是 迭代 次 数 ,也 是 参数 更 新 的 次 数 ; 
内 层 循 环 由 i 控制 ,循环 从 0 到 param_. iter_size() ,执行 正 向 \ 反 向 传播 操作 ,是 对 一 批 样本 
执行 正 向 \ 反 向 传播 操作 ,而 param_. iter_size() 的 值 就 是 batchsize, 即 批 的 大 小 。 

下 面 我 们 接着 看 函数 Solve 的 实现 ,这 是 Solver 求解 最 优化 问题 的 接口 函数 。 代 码 


ШТ: 


template< typename Dtype> 


void Solver<Dtype>::Solve(const char* resume file) { 


} 


CHECK (Caffe::root solver()); 
LOG(INFO)««"Solving "««net -»name(); 
LOG (INFO) < < "Learning Rate Policy: "««param .1г policy(); 
// 每 次 开始 训练 时 设置 成 false 
requested_early exit_=false; 
// 如 果 不 是 从 头 开始 训练 , 先 载 人 已 有 的 求解 器 状态 
if(resume file) { 
LOG(INFO)««"Restoring previous solver status from "««resume file; 
Restore (resume file); 
) 
int start iter-iter ; 
// 真 正 的 训练 迭代 由 函数 Step 完成 
Step(param .max iter()-iter ); 
if (param .snapshot after train() 
&&(!param .snapshot() || iter %рагат .snapshot() ! =0)) { 
Snapshot () ; 
) 
if (requested early exit ) { 
LOG (INFO) < < "Optimization stopped early."; 
return; 
) 
if (param .display() && iter $param .display()--0) { 
int average loss-this-»param .average loss(); 
Dtype loss; 
net -»Forward(&loss); 
UpdateSmoothedLoss (loss, start iter, average loss); 
LOG(INFO)««"Iteration "««iter <<", loss-"««smoothed loss ; 
) 
if (param .test interval() && iter %рагаш .test interval()--0) { 
TestAll(); 
} 
LOG (INFO) < < "Optimization Done."; 


Solve 函数 的 执行 流程 如 图 15. 14 Bron ,同样 的 我 们 忽略 了 非 关键 的 部 分 。 
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图 15.14 Solve 函数 的 执行 流程 


函数 UpdateSmoothedLoss 用 于 更 新 平滑 的 损失 函数 值 , 代 码 如 下 : 


template<typename Dtype> 
void Solver<Dtype> : :UpdateSmoothedLoss (Dtype loss, int start_iter, 
int average_loss) ( 
if(losses .size()«average loss) { 
losses .push back (loss); 
int size-losses .size(); 
// 加 权 求 和 
smoothed loss = (smoothed loss * (size-1)*1oss)/size; 
) else ( 
int idx- (iter -start iter) $average loss; 
smoothed loss += (1055- losses [ idx])/ average loss; 


losses [idx]=loss; 


} 


SGDSolver 类 继承 自 Solver 类 ,实现 了 标准 的 带动 量 项 的 随机 梯度 下 降 法 ,算法 的 原 
理 在 前 面 已 经 讲述 过 了 。 成 员 变量 history 维持 历史 的 momentum 信息 ( 即 动量 项 ) ;变量 
update 维持 参数 更 新 相关 的 信息 。 变 量 temp 维持 其 他 的 与 计算 梯度 .更 新 值 相 关 的 临 
时 值 。 

接 下 来 我 们 分 析 成 员 函 数 的 实现 ,重点 是 Get LearningRate, ApplyUpdate, Normalize, 
Regularize, ComputeUpdateValue,ClipGradients 这 几 个 函数 。 

函数 GetLearningRate 计算 本 次 迁 代 的 学 习 率 , 这 个 系数 用 于 参数 的 梯度 .动量 项 , 完 
成 对 参数 的 更 新 。 在 这 里 base Ir 是 基础 学 习 率 ,由 用 户 设 定 ;gamma 是 一 个 常数 ,由 用 户 
设 定 ;iter 是 当前 迭代 次 数 , 算 法 每 迭代 更 新 一 次 参数 ,该 值 加 1;step 是 一 个 常数 ,由 用 户 指 
定 ;power 是 一 个 常数 ,由 用 户 指 定 。 这 个 函数 支持 的 各 种 学 习 率 计算 策略 如 表 15.4 所 示 。 
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表 15.4 各 种 学 习 率 计算 策略 


























ж B 学 习 率 计算 公式 
fixed base lr 
step base lrX gamma"? 
exp base lr ватта" 
inv base lr (1 十 gammaX iter) ws 
multistep 与 step Ж ffl 
poly base lrX (1— iter/max iter )™™ 
sigmoid base lr 1 





1 十 exp( 一 gammaX (iter— stepsize)) 


下 面 来 看 函数 的 代码 实现 ,就 是 分 各 种 情况 用 上 面 的 公式 进行 计算 : 


template<typename Dtype> 
Dtype SGDSolver< Dtype> : :GetLearningRate () { 
Dtype rate; 
const string& lr_policy=this->param_.lr_policy(); 


// 对 各 种 情况 ,直接 按照 上 面 列 的 公式 进行 计算 


if (lr_policy=="fixed") { //fixed 策略 
rate-this-»param .base lr(); 
) else if(lr policy--"step") { //step 策略 


this-»current step -this-»iter /this-»param .stepsize(); 
rate-this-»param .base lr() * 
pow(this-»param .gamma(), this-»current step ); 
) else if (lr_policy=="exp") { //exp 策略 
rate-this-»param .base lr() * pow(this->param_.gamma(), this->iter_); 
) else if(lr policy--"inv") { / [inv 策略 
rate-this-»param .base lr() * 
pow (Dtype(1)+this->param_.gamma() * this-»iter , 
-this-»param .power()); 
) else if (lr_policy=="multistep") { //multistep 策略 
if(this-»current step «this-»param .stepvalue size() && 
this-»iter »-this-»param .stepvalue(this-»current step )) { 
this-»current step ++; 
LOG(INFO)««"MultiStep Status: Iteration "<< 
this-»iter ««", step-"««this-»current step ; 
} 
rate-this-»param .base lr() * 
pow(this-»param .gamma(), this-»current step ); 
) else if (lr_policy=="poly") { / [poly 策略 
rate-this-»param .base lr() * pow(Dtype(1.) - 
(Dtype(this-»iter )/Dtype(this-»param .max iter())), 


this-»param .power()); 
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} else if (lr_policy=="sigmoid") { //sigmoid 策略 
rate-this-»param .base lr() * (Dtype(1.) / 
(Dtype(1.)*exp(-this-»param .gamma() * (Dtype(this-»iter )- 
Dtype(this-»param .stepsize()))))); 
) else ( 
LOG (FATAL) < < "Unknown learning rate policy: "<<lr_ policy; 
) 
return rate; 


) 


函数 ClipGradients АР EE ETT VRBE b B , An ЯВ BE WO BE F 3E е Й ВЕС. Д % 
度 进行 缩放 ,这 样 做 是 为 了 处 理 梯度 爆炸 问题 。 当 在 一 次 迭代 中 权重 的 更 新 值 过 大 的 话 , 很 
容易 导致 损失 函数 的 值 不 收敛 。 处 理 流 程 如 下 。 

(1) 在 solver 中 先 设 置 一 个 clip gradient, 

(2) 在 前 向 传播 与 反 向 传播 之 后 ,会 得 到 每 个 权重 的 梯度 ,计算 所 有 权重 梯度 的 平方 ， 
如 果 该 值 大 于 指定 的 阅 值 , 则 计算 缩放 因子 ,其 值 为 0 一 1 。 

(3) 最 后 将 所 有 的 权重 梯度 乘 以 这 个 缩放 因子 。 

下 面 来 看 ClipGradients 函数 的 代码 : 


template<typename Dtype> 
void SGDSolver<Dtype> ::ClipGradients() { 
// 获 取 clip gradients £k, BI WJ (fi 
const Dtype clip gradients-this-»param .clip gradients (); 
if(clip gradients<0) ( return; } 
// 获 取 网 络 各 个 层 的 参数 
const vector«Blob«Dtype» * >& net_params=this->net_->learnable_params(); 
Dtype sumsq_diff=0; 
// 计 算 各 层 参 数 的 梯度 模 , 即 2 范 数 
for(int i=0; i<net_params.size();++i) { 
sumsq diff+=net_params[i]->sumsq diff(); 
) 
const Dtype 12norm diff-std::sqrt(sumsq diff); 
// 如 果 2 К Р ВИН clip gradients 
if (12norm diff»clip gradients) { 
// 计 算 缩 放 因子 
Dtype scale factor-clip gradients/l2norm diff; 
LOG(INFO)«« "Gradient clipping: scaling down gradients (L2 norm " 
««12norm diff<<">"<<clip gradients<<") " 
<<"by scale factor "««scale factor; 
// 对 各 个 向 量 进行 缩放 
for(int i=0; i<net params.size();++i) { 


net params[i]-»scale diff(scale factor); 
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函数 ApplyUpdate 执行 网 络 参数 的 更 新 操作 ,参数 的 更 新 公式 在 前 面 已 经 讲述 过 。 在 
调用 这 个 函数 之 前 ,已 经 计算 出 了 各 个 层 参数 的 梯度 值 。 处 理 流程 如 下 。 

(1) 获取 学 习 率 。 

(2) 对 梯度 进行 截断 处 理 。 

(3) 对 梯度 做 归 一 化 。 

(4) 为 梯度 加 上 正则 化 项 。 

(5) 计算 更 新 值 。 

(6) 对 参数 进行 更 新 。 

下 面 来 看 代码 实现 : 














template< typename Dtype> 
void SGDSolver<Dtype> ::ApplyUpdate() ( 
// 第 1 步 ,首先 计算 出 本 次 迭代 的 学 习 率 ,前 面 公式 中 的 a 
Dtype rate-GetLearningRate(); 
if (this->param_.display() && this-»iter %this->param_.display()==0) ( 
LOG IF (INFO, Caffe::root solver())««"Iteration "<<this->iter_ 
<<", lr="<<rate; 
} 
//% 2 步 , 对 梯度 进行 截断 处 理 
ClipGradients(); 
// 对 神经 网 络 各 个 层 的 参数 learnable_params 执行 更 新 
for(int param id-0; param id«this-»net -»learnable params().size(); 
**param id) { 
//% 3 步 ,对 参数 归 一 化 , 即 除 以 iter size 
Normalize (param id); 
//% 4 步 ,加 上 正则 化 项 
Regularize (param id); 
//% 5 步 , 计 算 更 新 值 , 在 这 里 计算 出 
ComputeUpdateValue (param_id, rate); 
} 
//% 6 步 , 调 用 Net 类 的 Update 函数 ,这 个 函数 在 前 面 分 析 过 
this-»net -»Update(); // 对 应 公式 Wai Wee Views 
) 


函数 Normalize 对 参数 的 更 新 值 进行 归 一 化 , 即 对 向 量 执行 一 次 缩放 操作 。 实 现代 码 
Шт: 


template<typename Dtype> 
void SGDSolver<Dtype> : :Normalize (int param id) { 
// 如 果 iter size 为 1, 不 做 任何 操作 ,直接 返回 
if (this->param .iter size()==1) { return; } 
// 对 参数 的 梯度 值 进行 缩放 ,以 抵抗 累计 效应 . 
const vector<Blob<Dtype> * >& net params-this-»net ->learnable params(); 
// 缩 放 因子 为 1/iter_size 


const Dtype accum normalization=Dtype (1.)/this->param .iter size(); 
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switch (Caffe::mode()) { 
case Caffe::CPU: { 
// 执 行 缩放 
caffe scal (net params[param id]-»count(), accum normalization, 
net_params[param id]-»mutable cpu diff()); 
break; 
} 
case Caffe::GPU: { 
#ifndef CPU_ONLY 
caffe gpu scal(net params[param id]-»count(), accum normalization, 
net params[param id]-»mutable gpu diff()); 
#else 
NO_GPU; 
#endif 


break; 


default: 
LOG (FATAL) < < "Unknown Caffe mode: "<<Caffe::mode(); 


} 


函数 Regularize 用 于 生成 正则 化 项 ,支持 L1 8 L2 正则 化 ,正则 化 项 将 被 加 到 梯度 值 
里 。 实 现代 码 如 下 : 


template<typename Dtype> 
void SGDSolver<Dtype> ::Regularize (int param id) { 
// 获 取 所 有 可 学 习 参 数 
const vector«Blob«Dtype» * >& net params-this-»net - > Іеагпар1е params(); 
// 获 取 所 有 参数 的 权重 衰减 系数 
const vector<float>& net params weight decay= 
this->net -»params weight decay(); 
// 获 取 模型 整体 的 权重 衰减 系数 
Dtype weight decay-this-»param .weight decay(); 
// 正 则 化 类 型 ,L1 或 12 
string regularization type-this-»param .regularization type(); 
Dtype local decay-weight decay * net params weight decay[param id]; 
switch (Caffe::mode()) ( 
case Caffe::CPU: ( 
if(local decay) ( 
if(regularization type--"L2") { 
//L2 正则 化 ,梯度 为 diff —weight decay* data *diff _ 
//diff 为 梯度 项 ,data 为 L2 正则 化 项 , 即 上 一 次 的 参数 值 
caffe axpy(net params[param id]-»count(), 
local decay, 
net params[param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
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) else if (regularization type=="L1") ( 
//L1 正则 化 ,梯度 为 diff =diff +sign(data ) 
//temp -sign(data ), 这 是 II 正则 化 项 
caffe cpu sign (net params[param id]-»count(), 
net params[param id] -»cpu data(), 
temp [param id]-»mutable cpu data()); 
// 将 temp 加 到 diff 中 ,diff =weight decay* temp «diff - 
caffe axpy (net params|param id] -»count(), 
local decay, 
temp [param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
) else ( 
LOG (FATAL) < < "Unknown regularization type: " 


««regularization type; 


) 
break; 
) 
case Caffe::GPU: ( 
#ifndef CPU ONLY 
if(local decay) ( 
if(regularization type--"L2") { 
//add weight decay 
caffe gpu axpy(net params[param id]-»count(), 
local decay, 
net params[param id]-»gpu data(), 
net params[param id]-»mutable gpu diff()); 

) else if(regularization type--"L1") ( 
caffe gpu sign(net params[param id]-»count(), 
net params[param id]-»gpu data(), 
temp [param id]-»mutable gpu data()); 
caffe gpu axpy(net params[param id]-»count(), 

local decay, 
temp [param id]-»gpu data(), 
net params[param id]-»mutable gpu diff()); 

) eise ( 

LOG (FATAL) << "Unknown regularization type: " 


««regularization type; 


#else 
NO_GPU; 
#endif 


break; 
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default: 
LOG (FATAL) < < "Unknown caffe mode: "««Caffe: :mode () ; 


) 
函数 ComputeUpdateValue 计算 参数 更 新 值 ,在 这 里 加 上 了 动量 项 。 代 码 如 下 : 


template< typename Dtype> 
void SGDSolver<Dtype> : :ComputeUpdateValue (int param id, Dtype rate) { 
// 获 取 所 有 可 以 更 新 的 参数 的 vector 
const vector«Blob«Dtype» * > & net_params=this->net_->learnable_params(); 
// 获 取 所 有 参数 对 应 的 Learning rate ( 即 学 习 率 ) 的 vector 
const vector< float>& net params lr-this-»net -»params lr(); 
// 获 取 动 量 项 系数 
Dtype momentum-this-»param .momentum(); 
// 实 际 的 learning rate 为 全 局 的 learning rate 乘 以 每 个 参数 对 应 的 learning rate 
Dtype local rate-rate * net params lr[param id]; 
switch (Caffe::mode()) ( 
case Caffe::CPU: ( 
//history 存储 了 上 一 次 的 梯度 更 新 值 , 即 动量 项 
//history_=learning_rate * diff_+momentum* history 
// 这 对 应 着 公式 vesica V wht pve 
caffe_cpu_axpby (net params[param id] -»count(), local rate, 
net params[param id]-»cpu diff(), momentum, 
history [param id]-»mutable cpu data()); 
// 把 当前 的 梯度 复制 给 参数 Blob 的 diff_ 
caffe copy(net params[param id]-»count(), 
history [param id]-»cpu data(), 
net params[param id]-»mutable cpu diff()); 
break; 
) 
case Caffe::GPU: ( 
#ifndef CPU ONLY 
зда update gpu(net params[param id]-»count(), 
net params[param id]-»mutable gpu diff(), 
history [param id]-»mutable gpu data(), 
momentum, local rate); 
#else 
NO GPU; 
#endif 
break; 
) 
default: 
LOG (FATAL) < < "Unknown caffe mode: "««Caffe: :mode () ; 
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AdaDeltaSolver 类 实现 了 AdaDelta 算法 。 下 面 来 看 计算 更 新 值 函 数 的 实现 : 


template< typename Dtype> 
void AdaDeltaSolver<Dtype> : :ComputeUpdateValue (int param id, Dtype rate) { 
// 要 进行 更 新 的 参数 
const vector<Blob<Dtype> * »& net_params=this->net_->learnable_ params(); 
// 学 习 率 
const vector<float>& net params lr=this->net -»params lr(); 
// 公 式 中 的 e 值 ,加 上 它 以 防止 除 0 操作 
Dtype delta=this->param .delta(); 
// 动 量 项 系数 ,公式 中 的 6 值 
Dtype momentum=this->param .momentum(); 
// 最 终 的 学 习 率 
Dtype local rate=rate * net params lr[param id]; 
size t update history offset-net params.size(); 
switch (Caffe::mode()) ( 
case Caffe::CPU: ( 
// 计 算 梯度 的 均 方 值 
// 对 net_params[param idj]->cpu_diff() 的 每 一 个 分 量 计算 平方 值 ,结果 存储 在 
//update [param id]-»mutable cpu data() 中 
//net params|param id]-» count () 是 向 量 的 维 数 
// 这 相当 于 计算 g; 
caffe_powx (net_params[param id]-»count(), 
net params[param id]-»cpu diff(), Dtype (2), 
this-»update [param id]-»mutable cpu data()); 
// 更 新 梯度 的 历史 值 
ЕТФ ]--eE [g']—:+ (1—p)g: 
//history_ 中 存放 的 是 E[g ] — :history 中 存放 的 是 g; 
caffe cpu axpby (net_params[param id] -»count () Dtype (1) -momentum, 
this-»update [param id]-»cpu data(), momentum, 
this-»history [param id]-»mutable cpu data()); 
// 将 temp 向 量 的 值 设 置 为 delta, 后 面 会 加 上 这 个 值 ,防止 除 0 操作 
caffe set(net params[param id]-»count(), delta, 
this-»temp [param id]-»mutable cpu data()); 
//¥ E Lg? Imke ,防止 除 0 操作 ,结果 存放 在 update 中 
caffe ада (пес params[param id]-»count(), 
this-»temp [param id]-»cpu data(), 
this->history [update history offset*param id]-»cpu data(), 
this-»update [param id]-»mutable cpu data()); 
Eg ]+e, 结 果 存 放 在 temp 中 
caffe ааа (пес params[param id]->count (), 
this->temp [param id]-»cpu data(), 
this->history [param id]-»cpu data(), 
this-»temp [param id]-»mutable cpu data()); 
caffe div(net params[param id|-»count(), 


this-»update [param id]-»cpu data(), 
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this->temp [param id]->cpu data(), 
this->update [param id]-»mutable cpu data()); 

// 同 时 计算 更 新 值 梯度 历史 值 的 RMS 

caffe powx(net params[param id]-»count(), 
this-»update [param id]-»cpu data(), Dtype(0.5), 
this-»update [param id]-»mutable cpu data()); 

// 计 算 更 新 值 

caffe mul (net params[param id]-»count(), 
net params[param id]-»cpu diff(), 





this-»update [param id]-»cpu data(), 
net рагатз[ рагат id]-»mutable cpu diff()); 
// 计 算 更 新 值 的 平方 
caffe powx(net params[param id]-»count(), 
net params[param id]-»cpu diff(), Dtype(2), 
this-»update [param id|-»mutable cpu data()); 
// 更 新 更 新 值 的 历史 值 
caffe_cpu_axpby (net_params[param id] -> count (), Dtype (1) -momentum, 
this- >update [param id]- >cpu_data(), momentum, 
this->history [update history offset+param_id]->mutable_cpu_data()); 
// 乘 上 学 习 率 
caffe cpu scale (net params[param id] -»count(), local rate, 
net params[param id]-»cpu diff(), 
net params[param id]-»mutable cpu diff()); 
break; 
) 
case Caffe::GPU: ( 
#ifndef CPU ONLY 
adadelta update gpu(net params[param id]-»count(), 
net params[param id]-»mutable gpu diff(), 
this-»history [param id]-»mutable дри data(), 
this->history [update history offset*param id]-»mutable gpu data(), 
momentum, delta, local rate); 
#else 
NO GPU; 
#endif 
break; 
} 
default: 
LOG (FATAL) < < "Unknown Caffe mode: "««Caffe: :mode () ; 


15.8 应 用 一 一 计算 机 视觉 


卷 积 神经 网 络 在 诸多 领域 得 到 成 功 的 应 用 。 接 下 来 介绍 它 在 计算 机 视觉 .计算 机 图 
形 学 .自然 语言 处 理 中 的 应 用 。 对 于 这 些 应 用 问题 和 为 它们 设计 的 算法 ,理解 的 关键 点 


А 
414) элаз ыт 


ШР. 

(1) 网 络 结构 。 即 网 络 由 哪些 层 组 成 ,各 个 层 的 作用 是 什么 ,它们 的 输入 数据 是 什么 ， 
输出 数据 是 什么 。 

(2) 训练 目标 。 即 损失 函数 ,这 直接 取决 于 要 解决 的 问题 。 


15.8.1 人 脸 检 测 


卷 积 网 络 在 图 像 分 类 问题 上 取得 成 功 之 后 .很 快 被 用 于 人 脸 检测 ,在 精度 上 大 幅度 超越 
之 前 的 AdaBoost 框架 。 如 果 直 接 用 滑动 窗口 技术 ,用 卷 积 网 络 对 窗口 图 像 进 行 分 类 ,计算 
量 太 大 很 难 达 到 实时 。 因 此 ,使 用 卷 积 网 络 进行 人 脸 检测 的 方法 采用 各 种 手段 解决 或 规避 
这 个 问题 。 在 这 些 方法 中 ,级 联 的 卷 积 网 络 (Cascade CNN)、DenseBox、 Femaleness-Net、 
MT-CNN 是 其 中 的 代表 。 

文献 [38] 将 VJ 框架 的 分 类 器 级 联 用 于 卷 积 网 络 , 以 保证 人 脸 检测 的 实时 性 ,这 里 也 采 
用 了 滑动 窗口 技术 。 这 个 方案 采用 了 3 级 卷 积 网 络 , 从 简单 到 复杂 ,分 别 接收 由 小 到 大 尺寸 
的 图 像 。 第 一 级 网 络 结构 简单 ,计算 量 小 ,用 于 快速 排除 大 量 的 非 人 脸 窗 口 。 如 果 一 个 窗口 
图 像 通过 了 一 个 卷 积 网 络 即 被 判定 为 人 脸 , 则 接着 被 送 入 下 一 级 网 络 中 继续 判断 。 如 果 窗 
口 图 像 通过 了 所 有 3 级 网 络 , 则 被 认为 是 人 脸 。 除 了 用 于 判断 图 像 是 否 是 人 脸 的 卷 积 网 络 
之 外 ,这 一 方法 还 包括 一 组 用 于 校正 人 脸 框 位 置 的 卷 积 网 络 。 

整个 人 脸 检 测 流程 如 下 。 

(1) 用 第 一 级 检测 网 络 对 图 像 进行 多 尺度 扫描 ,检测 各 个 尺寸 的 人 脸 。 然 后 用 第 一 级 
校准 网 络 对 检测 出 来 的 人 脸 和 矩形 框 进行 位 置 和 大 小 校正 。 最 后 在 各 个 尺度 上 分 别 进 行 非 最 
大 抑制 。 

(2) 用 第 二 级 检测 网 络 对 上 一 步 检测 出 的 人 脸 区 域 进 行 判定 , 非 人 脸 窗 口 直 接 抛弃 。 
然后 用 第 二 级 校准 网 络 对 人 脸 矩 形 框 进行 位 置 和 大 小 校正 。 最 后 在 各 个 尺度 上 进行 非 最 大 
抑制 。 

(3) 用 第 三 级 检测 网 络 对 上 一 步 检测 出 的 人 脸 区 域 进行 判定 , 非 人 脸 窗口 直接 抛弃 。 
接 下 来 执行 全 局 非 最 大 抑制 。 最 后 用 第 三 级 校准 网 络 对 人 脸 和 矩形 框 进行 位 置 和 大 小 校正 ， 
得 到 最 后 的 检测 结果 。 

校正 网 络 的 作用 是 对 检测 出 来 的 矩形 框 进行 校正 ,调整 其 大 小 和 位 置 ,以 实现 更 准确 的 
HEEM. BEIE H x,y wh). HR, a.) WE ESM. wh 为 宽度 和 高 度 。 
校正 后 的 矩形 框 为 

( 工 一 TatU/Ss yy — Yah /s, w/ s, h/ 5„) 
其 中 ,sw sns yn 为 校正 参数 ,分 别 为 尺度 缩放 、 水 平和 垂直 方向 的 平移 量 。 这 3 个 参数 采用 
离散 值 量化 ,组 合 起 来 有 45 种 校正 情况 。 校 正 网 络 要 根据 输入 图 像 判 断 应 该 用 这 45 种 方 
式 中 的 哪 一 种 进行 校正 ,这 是 一 个 多 分 类 问题 。 由 于 各 种 校正 情况 之 间 并 不 严格 互 斥 ,为 了 
提高 精度 采用 了 取 平 均 的 方式 。 

训练 时 需要 完成 对 3 个 检测 网 络 以 及 3 个 校准 网 络 的 训练 ,另外 还 需要 确定 级 联 阔 值 。 
训练 检测 网 络 时 用 背景 图 像 生成 负 样本 ,用 AFLW 人 脸 图 像 作 为 正 样本 。 检 测 网 络 和 校正 
网 络 都 采用 多 项 式 logistic 回归 损失 函数 。 对 于 校正 网 络 , 通 过 对 标准 的 人 脸 图 像 按照 45 
种 方式 的 随机 扰动 生成 训练 样本 ,并 缩放 到 3 种 校正 网 络 的 输入 尺寸 。 
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检测 网 络 的 训练 和 AdaBoost 级 联 分 类 器 的 训练 类 似 , 采 用 逐 级 训练 的 方式 训练 每 一 
级 分 类 器 ,并 确定 级 联 阔 值 。 对 于 第 一 级 检测 网 络 ,将 所 有 正 样 本 缩放 到 12 像素 X12 像素 
大 小 ,从 背景 图 像 中 随机 采集 20 万 张 图 像 作为 负 样本 。 训 练 完成 之 后 确定 级 联 阔 值 ,保证 
99% 的 检测 率 。 

然后 用 训练 出 来 的 第 一 级 检测 网 络 和 校正 网 络 对 背景 图 像 进行 扫描 ,大 于 阔 值 的 图 像 
作为 第 二 级 检测 网 络 的 负 样 本 。 所 有 正 样本 都 缩放 到 24 像素 X24 像素 大 小 ,训练 第 二 级 
检测 网 络 。 训 练 完成 之 后 再 确定 第 二 级 级 联 阔 值 ,保证 97% 的 检测 率 。 第 三 级 检测 网 络 的 
训练 和 第 二 级 网 络 类 似 ,采用 第 二 级 网 络 在 背景 图 像 上 的 虚 警 作为 负 样本 。 

Cascade CNN 还 是 采用 了 滑动 窗口 技术 , 卷 积 神经 网 络 每 次 只 接收 一 个 固定 尺寸 的 小 
的 窗口 图 像 , 判 断 这 个 区 域 是 否 为 人 脸 ,因为 窗口 数 太 多 ,计算 量 太 大 。 文献 [39] 提 出 了 一 
种 称 为 DenseBox 的 目标 检测 算法 ,这 种 方法 使 用 全 卷 积 网 络 ( 全 卷 积 网 络 去 掉 了 全 连接 
层 , 其 结构 将 在 15.8.5 节 介 绍 ) ,在 同一 个 网 络 中 直接 预测 目标 矩形 框 和 目标 类 别 置信 和 度 。 
通过 在 检测 人 脸 的 同时 进行 关键 点 定位 ,进一步 提高 了 检测 精度 。 检 测 流程 如 下 。 

CD 对 待 检测 图 像 进行 缩放 ,将 各 种 尺度 的 图 像 送 入 卷 积 网 络 中 处 理 , 以 检测 不 同 大 小 
的 目标 。 

(2) 输入 图 像 经 过 多 次 卷 积 和 池 化 操作 之 后 ,对 特征 图 像 进行 上 采样 ,然后 再 进行 卷 
积 ,得 到 最 终 的 输出 图 像 ,该 图 像 包含 了 每 个 位 置 出 现 目标 的 概率 ,以 及 目标 的 位 置 和 大 小 
信息 。 

(3) 由 上 一 步 的 输出 图 像 得 到 目标 矩形 框 。 

(4) 非 最 大 抑制 ,得 到 最 终 的 检测 结果 。 

卷 积 网 络 接收 m Хп 的 输入 图 像 ,产生 5 通道 的 mx/4Xn/4 输出 图 像 。 假 设 目标 和 矩形 左 
上 角 p. 的 坐标 为 (zy) AF ps 的 坐标 为 (zx ye) .输出 图 像 中 位 于 点 (zy) 处 的 像素 
用 五 维 向 量 描述 了 一 个 目标 的 矩形 框 和 置信 度 ， 

i; (3,dz' = Z, —z,,dy' = y, y, di* = x; —x,dy' = y, — уь}: 

第 一 个 分 量 是 候选 框 ,是 一 个 目标 的 置信 和 度 , 后 面 4 项 分 别 为 本 像素 的 位 置 与 矩形 框 左 
fü , 右 下 角 的 距离 。 每 个 像素 都 转化 成 一 个 矩形 框 和 置信 度 值 , 然 后 对 置信 度 值 大 于 指定 
阅 值 的 矩形 框 进行 非 最 大 抑制 ,得 到 最 终 检 测 结 果 。 

卷 积 网 络 以 VGG 网 络 为 基础 ,有 16 个 卷 积 层 。 前 12 个 卷 积 层 用 VGG 的 模型 进行 初 
始 化 。 卷 积 层 Conv4_4 的 输出 被 送 入 4 个 1 像素 X1 像素 的 卷 积 层 中 。 第 一 组 的 两 个 卷 积 
层 产 生 1 通道 的 输出 图 像 作为 置信 度 得 分 ;第 二 组 的 两 个 卷 积 层 产生 4 通道 的 输出 图 像 作 
为 矩形 框 的 4 个 坐标 。 网 络 的 输出 有 两 个 并 列 的 分 支 ,分 别 表示 置信 和 度 和 和 矩形 框 位 置 的 预 
测 值 。DenseBox 整个 网 络 的 结构 如 图 15. 15 所 示 。 

为 了 提高 检测 精度 ,采用 了 多 尺度 融合 的 策略 。 将 Conv3_4 和 Conv_4_4 的 卷 积 结果 
拼接 后 送 入 后 面 的 层 处 理 。 由 于 两 个 层 的 输出 图 像 大 小 不 同 , 使 用 了 上 采样 和 线性 插值 对 
小 的 图 像 进行 放大 ,将 两 种 图 像 尺 寸 变 为 相等 。 

由 于 输出 层 有 两 个 分 支 ,因此 ,损失 函数 由 两 部 分 组 成 。 第 一 部 分 输出 值 为 分 类 置信 
度 , 即 本 位 置 是 一 个 目标 的 概率 ,用 3 表示 。 真 实 的 类 别 标签 值 为 y* , 取 值 为 0 或 者 1 ,分 别 
表示 是 背景 和 目标 。 分 类 损失 函数 采用 欧 氏 距离 ,定义 为 

La ($.y*) = |9—у*||?* 
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图 15.15 DenseBox 的 网 络 结构 (来 自 文献 [39]) 





损失 函数 的 第 二 部 分 是 矩形 框 预测 误差 ,假设 预测 值 为 4, 真 实 值 为 4 ,它们 的 4 个 分 
量 均 为 当前 像素 与 矩形 框 左上 角 和 右 下 角 的 距离 。 定 位 损失 函数 同样 采用 了 欧 氏 距离 , 定 
义 为 

1„(4.4") = 4—4" ||? 

总 损失 函数 是 这 两 部 分 的 加 权 和 。 训 练 样本 的 标注 方案 为 ,对 于 图 像 的 任何 一 个 位 置 ， 
如 果 它 和 真实 目标 矩形 框 的 重 肆 比 大 于 指定 阔 值 , 则 标注 为 1, 否则 标注 为 0; 对 位 置 的 标注 
根据 每 个 像素 与 目标 矩形 框 4 条 边 的 距离 计算 。 

文献 [40] 提 出 了 一 种 称 为 Faceness-Net 的 人 脸 检测 算法 。 其 主要 创新 是 用 多 个 卷 积 
网 络 分 别 检测 人 脸 的 组 件 , 包 括 头发 眼睛、 鼻子 .嘴巴 .胡须 。 用 另 一 个 卷 积 网 络 对 检测 到 
的 这 些 组 件 进 行 联合 优化 ,输出 人 脸 检 测 的 结果 。 由 于 使 用 了 部 件 检测 器 ,因此 ,对 人 脸 的 
遗 挡 具 有 非常 好 的 鲁 棒 性 。 

文献 [104] 提 出 了 一 种 称 为 MT-CNN(Multi-Task CNN ,多 任务 CNN) 的 人 脸 检测 算 
法 ,这 个 方法 融合 了 人 脸 检测 和 关键 点 定位 ,在 一 个 框架 内 同时 完成 这 两 个 任务 。 系 统 由 3 
个 网 络 构成 ,分 别称 为 Proposal Net .Refinement Net、Output Net。 检 测 时 ,使 用 这 3 个 网 
络 进行 级 联 , 逐 步 求 精 。 整 个 检测 流程 如 下 。 

首先 用 Proposal Net 输出 候选 框 和 人 脸 关 键 点 的 坐标 ,这 是 一 个 全 卷 积 网 络 ,处 理 速 
度 比 滑动 窗口 方案 更 快 。 接 下 来 用 Refinement Net 对 第 一 个 网 络 的 输出 结果 进行 细 化 , 抛 
弃 掉 非 人 脸 窗 口 ,并 进一步 进行 位 置 和 大 小 回归 ,并 执行 非 最 大 抑制 操作 。 最 后 将 结果 送 入 
Output Net, 这 个 网 络 也 进行 进一步 分 类 矩形 框 回归 ,以 及 人 脸 关键 点 的 细 化 ,最 后 得 到 最 
终 的 检测 结果 。 


158.2 通用 目标 检测 


与 人 脸 , 行 人 等 特定 类 型 的 目标 检测 不 同 , 通 用 目标 检测 要 同时 检测 图 像 中 的 多 种 类 型 
目标 。 各 类 目标 的 形状 不 同 ,因此 .目标 矩形 的 宽 高 比 不 同 。 处 理 这 一 问题 的 经 典 方法 是 
“人 工 特 征 十 分 类 器 ”方案 ,典型 的 是 DPM (Deformable Parts Model) 。 面 对 复杂 的 检测 任 
务 , 这 类 方法 的 精度 难以 大 幅度 提升 。 卷 积 网 络 被 成 功用 于 通用 目标 检测 问题 ,R-CNN Ж 
列 算法 是 典型 的 代表 。 通 用 目标 检测 要 解决 如 下 核心 问题 。 
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CD 目标 可 能 出 现在 图 像 的 任何 位 置 。 
(2) 目标 有 各 种 不 同 的 大 小 。 
(3) 目标 有 各 种 不 同 的 形状 。 如 果 用 拢 形 框 来 定义 目标 , 则 矩形 有 不 同 的 宽 高 比 。 
后 面 将 要 介绍 的 各 种 算法 除了 完成 对 检测 框图 像 的 分 类 这 一 任务 之 外 ,它们 的 核心 目 
标 就 是 用 各 种 策略 解决 上 面 3 个 问题 。 为 了 评价 检测 效果 ,在 这 里 定义 IOU 的 概念 , 它 是 
两 个 矩形 交集 与 其 并 集 的 面积 比值 ,反映 了 两 个 矩形 的 重 和 程度 
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如 果 两 个 矩形 分 别 为 目标 真实 矩形 框 与 检测 结果 矩形 框 , 则 该 值 越 大 ,意味 着 检测 结果 
越 接近 真实 目标 。 

R-CNNr” 是 第 一 个 公开 的 采用 深度 卷 积 网 络 解决 通用 目标 检测 问题 的 方法 ,奠定 了 这 
一 系列 方法 的 基础 。 它 抛弃 了 滑动 窗口 技术 , 改 用 启发 式 搜索 技术 提取 图 像 中 所 有 可 能 是 
目标 的 候选 区 域 ,这 些 候 选区 域 称 为 Region Proposals。 然 后 用 卷 积 网 络 提取 这 些 候 选区 
域 的 特征 ,得 到 固定 维 数 的 特征 向 量 。 最 后 用 支持 向 量 机 进行 分 类 ,判断 它 是 目标 还 是 背 
景 。 整 个 目标 检测 的 流程 分 为 以 下 4 步 。 

CD) 用 Selective Search 算法 从 待 检测 图 像 中 提取 可 能 是 目标 的 候选 区 域 。 与 滑动 窗 
口技 术 相 比 ,这 种 方法 将 候选 窗口 减少 了 至 少 2 个 数量 级 。 

(2) 用 卷 积 网 络 分 别提 取 所 有 候选 区 域 的 特征 ,每 个 候选 窗口 得 到 固定 长 度 的 特征 
向 量 。 

СЗ) 使 用 线性 支持 向 量 机 对 上 一 步 提 取 的 特征 向 量 进行 分 类 ,确定 它 是 不 是 某 一 类 
目标 。 

OD 对 目标 位 置 和 大 小 进行 调整 。 

最 后 还 要 对 检测 结果 进行 非 最 大 抑制 。 这 一 流程 如 图 15. 16 所 示 。 
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15.16 R-CNN 算法 的 检测 流程 
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不 采用 滑动 窗口 技术 的 原因 有 两 个 : 一 是 计算 成 本 高 ,会 产生 大 量 的 待 分 类 窗口 ;另外 
不 同类 型 目标 的 矩形 框 有 不 同 的 宽 高 比 , 无 法 使 用 统一 尺寸 的 窗口 对 图 像 进 行 扫 描 。 用 于 
提取 候选 区 域 特征 的 卷 积 网 络 输入 数据 是 固定 大 小 的 RGB 图 像 ,输出 为 4096 维 的 向 量 。 
对 候选 区 域 的 分 类 采用 的 是 线性 支持 向 量 机 ,对 待 检测 图 像 计算 所 有 候选 区 域 的 特征 向 量 ， 
送 入 支持 向 量 机 中 进行 分 类 。 

卷 积 网 络 用 背景 图 像 . 各 类 目标 图 像 进行 训练 。 对 于 每 张 训 练 样本 图 像 ,用 Selective 
Search 算法 从 中 抽取 出 约 2000 个 子 图 像 , 如 果 一 个 子 图 像 与 真实 目标 矩形 框 的 TOU 超过 
0.5, 则 被 标注 为 该 类 目标 ,否则 标注 为 背景 。 训 练 完成 之 后 ,网 络 最 后 一 个 全 连接 层 的 输出 
被 用 作 特 征 向 量 。 

线性 支持 向 量 机 采用 这 些 特征 向 量 进行 训练 ,如 果 要 检测 类 目标 , 则 要 训练 个 支持 
向 量 机 。 每 个 支持 向 量 机 负责 区 分 图 像 是 否 为 某 一 类 目标 ,训练 时 ,与 真实 目标 和 矩形 框 的 
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TOU 超过 某 一 阔 值 的 图 像 作为 正 样本 ,否则 作为 负 样本 。 位 置 校正 采用 岭 回归 算法 ,其 输 
入 为 4096 维 的 特征 向 量 , 输 出 为 x 和 > 方向 的 平移 和 缩放 。 训 练 时 ,与 某 一 目标 真实 矩形 
HE TOU 超过 某 一 阔 值 的 图 像 作为 训练 样本 。 

R-CNN 算法 虽然 比 之 前 的 算法 有 很 大 的 进步 ,但 它 存在 下 列 问题 。 

CD. 用 于 提取 特征 的 卷 积 网 络 只 能 接收 固定 尺寸 的 输入 图 像 , 即 使 是 很 小 的 候选 区 域 ， 
也 要 缩放 到 统一 尺寸 然后 再 送 入 网 络 进行 处 理 , 非 常 耗 时 。 

(2) 所 有 候选 区 域 都 要 送 入 卷 积 网 络 计 算 一 次 ,对 于 有 重 秋 区域 的 候选 窗口 ,显然 存在 
重复 计算 。 

(3) 由 于 卷 积 网 络 只 能 接收 固定 尺寸 的 图 像 , 为 了 适应 这 个 图 像 尺寸 ,要 么 截取 这 个 尺 
才 的 图 像 区 域 ,这 将 导致 图 像 未 履 盖 整个 目标 ;要 么 对 图 像 进行 缩放 ,这 会 产生 扭曲 。 无 论 
哪 种 情况 ,都 会 影响 检测 精度 。 

SPP 网 络 中 致力 于 解决 上 面 的 问题 , 它 通 过 引入 一 种 称 为 空间 金字 塔 池 化 (Spatial 
Pyramid Pooling,SPP) 的 池 化 层 解决 卷 积 网 络 只 能 接收 固定 尺寸 输入 图 像 这 一 核心 问题 。 

在 卷 积 网 络 中 , 卷 积 层 并 不 要 求 输入 图 像 的 尺寸 固定 ,只 有 第 一 个 全 连接 层 需 要 固定 尺 
才 的 输入 ,因为 它 和 前 一 层 之 间 的 权重 矩阵 是 固定 大 小 的 ,其 他 的 全 连接 层 也 不 要 求 图 像 的 
尺寸 固定 。 如 果 在 最 后 一 个 卷 积 层 和 第 一 个 全 连接 层 之 间 做 特殊 处 理 ,将 不 同 大 小 的 图 像 
变 为 固定 大 小 的 全 连接 层 输入 就 可 以 解决 问题 。SPP 网 络 在 最 后 一 个 卷 积 层 之 后 加 入 SPP 
层 , 它 把 待 处 理 图 像 在 多 个 尺度 上 划分 成 网 格 ,然后 对 每 个 网 格 进行 池 化 ,最 后 将 各 个 尺度 
的 池 化 结果 拼接 起 来 形成 一 个 固定 长 度 的 向 量 。 这 一 原理 如 图 15. 17 所 示 。 
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15.17 SPP 操作 示意 图 


实现 时 采用 3 个 尺度 的 划分 。 对 于 卷 积 特征 图 像 ,第 一 个 尺度 将 图 像 划 分 成 4X4 等 分 
的 网 格 ,对 每 个 网 格 进行 池 化 ,输出 16 维 的 向 量 ; 第 二 个 尺度 将 图 像 划 分 成 2X2 等 分 ,输出 
4 维 的 向 量 ; 最 后 一 个 尺度 对 整个 图 像 进行 池 化 ,输出 一 维 的 向 量 。 因 此 ,SPP 操作 之 后 每 
张 特征 图 像 的 输出 向 量 为 21 维 。 

在 检测 时 只 对 整个 图 像 进行 一 遍 处 理 。 对 于 输入 图 像 的 所 有 候选 窗口 ,在 经 过 所 有 卷 
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积 层 之 后 ,对 原始 图 像 的 所 有 候选 区 域 在 卷 积 特征 图 像 中 对 应 的 子 图 像 做 SPP. 操作 ,形成 
固定 长 度 的 向 量 , 然 后 送 入 全 连接 层 进行 处 理 ,形成 特征 向 量 ,这 样 就 消除 了 特征 提取 的 重 
复 计算 。SPP 网 络 对 候选 区 域 的 分 类 ,位 置 回 归 与 R-CNN 算法 相同 。 

训练 时 要 分 两 部 分 进行 训练 。 因 为 SPP 层 是 自 适应 多 尺度 的 池 化 ,因此 ,无 法 通过 反 
向 传播 算法 将 误差 项 传播 到 它 前 面 的 层 。 因 为 网 络 在 多 个 尺度 上 进行 了 划分 ,然后 输出 固 
定 长 度 的 向 量 , 反 向 传播 时 无 法 根据 输出 向 量 的 导数 计算 SPP 层 输入 图 像 的 导数 。 卷 积 层 
采用 预 训练 的 策略 提前 训练 好 ,然后 训练 全 连接 层 , 这 用 标准 的 反 向 传播 算法 实现 。 

Fast R-CNND? JEX} SPP 网 络 的 改进 。 其 主要 创新 是 用 ROI i (EE EE SPP 层 ,以 及 
在 一 个 卷 积 网 络 中 同时 对 候选 区 域 进 行 分 类 和 和 矩形 框 回归 ,不 再 使 用 支持 向 量 机 对 候选 区 
域 进行 分 类 。 这 种 方法 实现 了 端 到 端的 训练 和 检测 。 

R-CNN 的 训练 要 分 阶段 进行 。 第 1 步 是 卷 积 网 络 的 训练 ,第 2 步 训练 支持 向 量 机 ,第 
3 步 训练 目标 矩形 回归 器 实现 目标 的 精确 定位 。 这 种 分 离 的 方案 训练 时 非常 耗费 时 间 和 存 
储 空间 ,为 了 训练 支持 向 量 机 和 目标 和 矩形 回归 器 ,每 个 候选 区 域 都 要 提取 特征 向 量 并 存储 到 
硬盘 中 ,特征 提取 的 计算 量 非常 大 。 

SPP 网 络 虽然 消除 了 卷 积 网 络 特征 提取 的 重复 计算 ,但 还 是 存在 缺点 。 它 的 训练 过 程 
还 是 分 上 面 3 个 阶段 。 由 于 SPP 层 无 法 进行 反 向 传播 (因为 不 知道 池 化 之 前 的 图 像 的 尺 
寸 ) ,在 进行 网 络 微调 时 无 法 更 新 卷 积 层 的 参数 。 

Fast R-CNN 算法 以 整个 图 像 和 目标 候选 区 域 列表 作为 输入 , 卷 积 网 络 先 用 若干 卷 积 
层 和 池 化 层 对 整个 图 像 进行 处 理 , 得 到 特征 图 像 。 然 后 对 每 个 候选 区 域 用 ROT 池 化 层 从 特 
征 图 像 中 提取 出 固定 长 度 的 特征 向 量 。 特 征 向 量 被 送 入 全 连接 层 中 ,最 后 一 个 全 连接 层 后 
有 两 个 输出 层 。 第 一 个 输出 层 用 softmax 回归 进行 分 类 ,包括 上 个 目标 类 和 一 个 背景 类 ;第 
二 个 输出 层 为 个 目标 类 中 的 每 个 类 输出 4 个 实数 值 , 表 示 这 一 个 类 的 目标 矩形 框 的 位 置 
和 大 小 。 

ROI 池 化 层 的 做 法 和 SPP 层 类 似 , 但 只 使 用 一 个 尺度 进行 网 格 划 分 和 池 化 。 假 设 该 层 
输出 图 像 的 尺寸 为 了 HXW., 它 们 是 可 配置 参数 。 它 接收 的 输入 是 一 个 高 度 为 有 宽度 为 w 的 
图 像 。 池 化 操作 将 输入 图 像 均 分 成 H >x W 的 网 格 , 然 后 对 网 格 进行 max 池 化 。 

由 于 有 两 个 并 列 的 输出 层 , 因 此 使 用 了 多 任务 损失 函数 。 第 一 个 输出 层 对 全 连接 层 输 
出 的 & 十 1 维 向 量 进行 softmax 变换 得 到 概率 向 量 p: 

(bos pist рь) 
即 候选 窗口 属于 每 一 类 的 概率 值 。 第 二 个 输出 层 输出 的 向 量 表示 目标 和 矩形 的 位 置 偏 移 值 ， 
对 于 第 & 个 类 ,输出 向 量 # 为 














юй ub 
这 个 向 量 表示 对 目标 矩形 框 的 平移 和 对 数 空 间 的 宽 高 缩放 。 训 练 样本 图 像 中 的 每 一 个 
ROI 都 对 应 一 组 标签 值 .分别 是 类 型 n 和 和 矩形 框 回归 目标 ww。 多 任务 损失 函数 定义 为 
L(p.u.t",v) = Га, (р.и) +А[и > 1]Lw(t*. v) 
第 一 部 分 为 对 数 损失 函数 ( 即 交叉 炉 ) , 它 用 于 判断 候选 区 域 是 何 种 目标 。 第 二 部 分 根 
据 第 类 的 真实 矩形 框 w 以 及 网 络 的 预测 值 * 构造 ,定义 为 
La (P wy = УХ smooth;, Gi — v) 


i€ (zy wh] 
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其 中 ,smooth 是 一 个 光滑 的 分 段 函数 ,定义 为 
0. 52”, |z|<1 

| х | 一 0.5， Ө, 

参数 4 由 人 工 设 定 , 用 于 控制 分 类 和 位 置 回归 的 相对 重要 性 。 训 练 时 ROT 池 化 层 的 误 
差 反 向 传播 计算 方法 和 标准 max 池 化 类 似 ,在 前 面 已 经 介绍 ,需要 记 住 正 向 传播 时 最 大 值 
的 位 置 。 

检测 时 网 络 的 输入 为 待 检 测 图 像 以 及 候选 区 域 列表 。 对 每 一 个 候选 区 域 ,网 络 输出 其 
属于 每 一 类 的 概率 ,根据 这 个 概率 可 以 判断 出 候选 区 域 是 不 是 要 检测 的 目标 ,如 果 是 目标 ， 
再 根据 网 络 的 输出 进行 位 置 回 归 。 最 后 执行 非 最 大 抑制 操作 得 到 最 终 的 检测 结果 。 

R-CNN 和 Fast R-CNN 的 检测 过 程 都 包括 候选 区 域 生成 、 特 征 提 取 、 候 选区 域 分 类 、 目 
标 位 置 回归 与 调整 4 步 。Fast R-CNN 对 后 面 的 3 步 已 经 做 了 性 能 上 的 优化 , 剩 下 的 只 有 候 
选区 域 的 提取 ,这 一 步 比较 耗 时 并 且 无 法 用 GPU 并 行 化 。Faster R-CNNE 将 候选 区 域 的 
提取 也 用 卷 积 网 络 实现 ,代替 Selective Search 算法 ,这 通过 候选 区 域 生成 网 络 实现 ,候选 区 
域 生成 网 络 与 检测 网 络 共享 卷 积 层 参 数 ,因此 ,计算 开销 非常 小 。 

生成 候选 区 域 的 网 络 (Region Proposal Network,RPN) 的 输出 值 为 目标 候选 区 域 列 
表 。 第 二 个 网 络 接收 待 检测 图 像 和 RPN 产生 的 候选 区 域 作为 输入 ,最 终 产生 目标 检测 输 
出 。 整 个 系统 的 结构 如 图 15. 18 所 示 。 


smoothr, Cr) = ( 
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图 15.18 Faster R-CNN 网 络 结构 


RPN 的 输入 为 卷 积 特 征 图 像 , 输 出 为 一 系列 的 候选 矩形 框 。RPN 网 络 对 最 后 一 个 共 
享 卷 积 层 的 特征 图 像 进行 处 理 , 首 先 执行 3X3 的 卷 积 运算 。 在 这 里 , 卷 积 输入 图 像 中 任意 
一 个 3X3 子 图 像 代 表 了 原始 图 像 中 该 点 为 中 心 的 一 个 矩形 区 域 ,以 此 检测 处 于 不 同位 置 处 
的 目标 。 这 个 子 图 像 首先 被 卷 积 层 映 射 成 一 个 特征 向 量 , 然 后 送 入 两 个 并 列 的 1X1 卷 积 层 
进行 处 理 。 第 一 个 分 支 是 目标 矩形 分 类 ,确定 这 个 区 域 是 背景 还 是 前 景 ;第 二 个 是 目标 矩形 
回归 ,确定 候选 框 的 位 置 和 大 小 。 

为 了 检测 不 同 大 小 和 宽 高 比 的 目标 ,使 用 了 一 种 称 为 锚 点 (Anchor) 的 机 制 。 卷 积 特征 
图 像 中 的 每 个 位 置 对 应 原始 图 像 中 的 多 个 候选 矩形 ,这些 矩形 以 该 点 为 中 心 , 有 不 同 大 小 和 
宽 高 比 , 称 为 锚 点 。 它 们 可 以 看 作 是 基准 矩形 ,要 检测 目标 和 矩形 通过 对 这 些 锚 点 矩形 进行 平 
移 和 缩放 而 得 到 。 图 15. 19 是 锚 点 的 原理 。 

图 15. 19 中 的 锚 点 有 3 种 不 同 的 大 小 ,每 种 大 小 有 3 种 不 同 的 宽 高 比 , 因 此 ,在 每 个 位 
置 产生 出 9 个 候选 框 。 不 同 的 矩形 大 小 是 为 了 检测 不 同 大 小 的 目标 ,不 同 的 宽 高 比 是 为 了 
检测 不 同形 状 的 目标 。 如 果 每 个 位 置 的 锚 点 数 为 &, 则 RPN 的 回归 层 有 4k 个 输出 值 ,表示 
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15.19 锚 点 的 原理 


候选 矩形 相对 锚 点 矩形 的 位 置 和 尺寸 调整 ;分 类 层 有 2k 个 输出 值 , 表 示 此 位 置 是 目标 以 及 
背景 的 概率 。 如 果 卷 积 特征 图 像 尺寸 为 hXw, 则 所 有 可 能 的 锚 点 为 LXwXk 个 。 图 15. 20 
是 RPN 的 原理 示意 图 。 



















分 类 
3x3 卷 积 1x1 卷 积 
9x2 通 道 
1x1 卷 积 | 位 置 
回归 
卷 积 特征 图 像 卷 积 特征 图 像 ，256 通 道 
9x4 通 道 


Р 15.20 RPN 的 原理 


RPN 的 损失 函数 由 分 类 和 位 置 回归 两 部 分 构成 。 分 类 部 分 用 来 判断 销 点 是 背景 还 是 
目标 , 正 样本 为 目标 , 负 样 本 为 背景 ,注意 这 里 并 不 对 目标 的 类 型 进行 细 分 。 图 像 每 个 锚 点 
处 的 损失 函数 由 分 类 算 和 回归 损失 构成 ,定义 为 

Ы) = E be (pis pi )+À 3 Lg (ti st) 
其 中 ,p; 是 锚 点 ,为 目标 的 概率 ; рг 为 样本 的 真实 类 别 标 签 ,分 类 损失 函数 使 用 的 是 交叉 
йи; 是 一 个 4 维 向 量 , 是 预测 的 矩形 的 参数 化 坐标 ; 妃 是 一 个 正 样本 锚 点 的 真实 矩形 ; Nas 
为 Mini-Batch 的 大 小 ; Ns 为 锚 点 的 数量 ;4 是 人 工 设 定 的 系数 ,用 于 调节 分 类 和 位 置 回归 
的 重要 性 [DH GU ER ROS. 





Lag; st? ) = Ка — t) 
其 中 ,R 是 L1 光滑 函数 ,前 面 乘 以 p; 表示 它 只 对 正 样本 起 作用 。 位 置 回 归 的 参数 化 坐标 
计算 公式 为 














L, = (т—х„)/м„. ty = (y— y.)/h, 
tw = In(w/wa), tj = ln(h/h,) 
它们 分 别 为 矩形 的 中 心 点 坐标 、 高 度 和 宽度 。xz、zx。、zx" 分 别 为 预测 矩形 框 、 锚 点 矩形 
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框 、 真 实 矩 形 框 的 中 心 点 xz 坐标 ,其 他 3 个 变量 的 含义 类 似 。 

训练 时 样本 图 像 中 满足 下 面条 件 的 锚 点 会 被 赋予 正 样本 标签 : 与 某 一 真实 的 目标 矩形 
框 有 最 高 TOU 重 倒 比 ,与 任何 一 个 真实 目标 矩形 框 的 IOU АНА 0.7。 根 据 这 一 规 
则 ,一 个 真实 目标 可 能 会 将 多 个 锚 点 赋予 正 样 本 标签 。 如 果 锚 点 与 所 有 真实 目标 的 IOU Ж 
丢 比 都 小 于 0.3, 则 被 标记 为 负 样本 。 既 不 标记 为 正 样本 也 不 标记 为 负 样本 的 销 点 不 参与 
训练 。 

RPN 用 反 向 传播 算法 和 随机 梯度 下 降 法 训练 。 每 个 Mini-Batch 来 自 一 张 样本 图 像 ， 
从 图 像 中 随机 采样 一 些 正 样本 和 负 样 本 锚 点 ,每 张 图 像 生成 256 个 锚 点 , 正 负 样 本 的 比例 为 
121, 

还 有 一 个 需要 解决 的 问题 是 如 何 实现 RPN 前 面 的 卷 积 层 和 检测 网 络 的 卷 积 层 参 数 的 
共享 。 在 这 里 采用 了 交替 训练 的 策略 ,具体 做 法 如 下 。 

(1) 用 ImageNet 模型 初始 化 ,训练 RPN 的 参数 。 

(2) 用 ImageNet 模型 初始 化 ,使 用 上 一 步 RPN 产生 的 候选 区 域 作为 输入 ,训练 Fast 
R-CNN 网 络 ,此 时 两 个 网 络 每 一 层 的 参数 不 共享 。 

(3) 使 用 第 (2) 步 的 Fast R-CNN 网 络 参数 初始 化 一 个 新 的 RPN, 但 是 把 RPN, Fast R- 
CNN 共享 的 那些 卷 积 层 的 学 习 率 设置 为 0, 只 更 新 RPN 特有 的 那些 层 , 重 新 训练 ,此 时 两 
个 网 络 已 经 共享 了 所 有 公共 的 卷 积 层 。 

(4) 固定 共享 的 那些 网 络 层 ,把 Fast R-CNN 特有 的 层 也 加 入 进来 ,形成 一 个 统一 的 网 
络 , 继 续 训 练 , 微 调 Fast R-CNN 特有 的 层 。 

YOLOCU KT R-CNN 系列 的 提取 候选 区 域 步骤 ,直接 得 到 目标 的 类 别 和 和 拢 形 ,在 速 
度 上 达到 了 实时 。 整 个 框架 只 使 用 一 个 网 络 , 同 时 完成 目标 位 置 的 预测 和 分 类 ,实现 了 真正 
意义 上 端 到 端的 训练 和 预测 。 与 基于 滑动 窗口 ,候选 框 的 方法 相 比 ,对 整 张 图 像 进行 处 理 带 
来 的 一 个 好 处 是 可 以 利用 更 大 范围 的 图 像 语义 信息 ,从 而 提高 检测 精度 。 

算法 将 待 检测 图 像 缩 放 到 标准 尺寸 ,然后 送 入 卷 积 网 络 ,为 了 检测 不 同位 置 的 目标 ,将 
图 像 等 分 成 SXS 的 网 格 ,这 也 是 最 终 输出 图 像 的 尺寸 ,如 果 某 个 目标 的 中 心 落 在 一 个 网 格 
单元 中 ,此 网 格 单元 就 负责 预测 该 目标 。 每 个 网 格 单元 负责 预测 B( 实 现时 这 个 值 为 2) 个 
目标 和 矩形 框 大 小 和 坐标 ,以 及 它们 的 置信 和 度 得 分 ,该 置信 度 包含 了 两 方面 的 信息 : 这 个 矩形 
是 目标 的 概率 ,以 及 这 个 矩形 是 目标 矩形 的 精确 度 。 置 信和 度 定义 为 

plobject) X IOUS 

上 式 前 半 部 分 为 矩形 是 一 个 目标 的 概率 ,后 半 部 分 是 矩形 的 精确 度 预测 值 , 即 和 预测 出 
的 矩形 框 与 真实 目标 矩形 框 的 重合 度 。 事 实 上 ,在 检测 阶段 ,预测 出 的 是 这 个 乘积 值 而 不 是 
这 两 个 乘积 项 。 在 训练 阶段 ,如 果 网 格 单元 里 没有 目标 , 则 置信 度 得 分 为 0; 否则 第 一 个 乘 
积 项 (object) 设 置 为 1. 第 二 项 IOUg 中 则 为 预测 的 矩形 与 真实 矩形 的 IOU。 

在 检测 时 ,为 每 个 矩形 预测 5 个 值 , 包 括 和 矩形 的 位 置 坐标 (z,y) 和 大 小 (wj) ,以 及 置信 
度 。 其 中 ,坐标 zx Aly 为 目标 矩形 的 中 心 点 相对 于 网 格 单元 的 位 置 ,高 度 /和 宽度 zw 为 相 
对 于 整个 图 像 尺寸 的 值 。 

每 个 网 格 单元 预测 C 个 类 的 概率 值 ,这 个 概率 值 表 示 本 网 格 单元 是 每 一 类 目标 的 概率 
值 。 需 要 注意 的 是 ,每 个 网 格 单元 只 预测 一 组 类 概率 值 , 虽 然 它 预测 B 个 矩形 。 对 于 SXS 
的 网 格 ,因为 每 个 网 格 负责 预测 妃 个 目标 矩形 ,因此 模型 预测 的 输出 是 一 个 SXSX(5XB 十 
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C) 的 张 量 。 


类 别 由 网 格 负责 预测 ,置信 度 由 矩形 负责 预测 。 在 检测 时 ,将 类 概率 和 单个 矩形 置信 度 

预测 值 相 乘 , 即 可 得 到 和 矩形 对 于 每 个 类 的 置信 度 得 分 : 
p(class; | object X p(object X IOUR? = pclass; X IOUS 

按照 前 面 的 定义 ,该 置信 度 值 包 含 了 这 个 类 的 目标 在 矩形 中 出 现 的 概率 ,以 及 预测 的 和 矩 
形 与 这 个 目标 的 真实 矩形 的 重合 度 有 多 高 这 两 部 分 信息 。 

卷 积 层 负责 提取 特征 ,全 连接 层 负责 预测 目标 的 概率 和 和 矩形 框 。 网 络 的 最 后 一 层 输出 
所 有 位 置 出 现 各 类 目标 的 概率 以 及 目标 的 矩形 框 。 和 矩形 的 高 度 和 宽度 相对 于 整个 图 像 的 高 
度 和 宽度 做 了 归 一 化 , 值 为 0 一 1。 和 矩形 的 zx 和 > 坐标 是 对 某 一 网 格 位 置 的 偏 移 , 也 进行 了 
参数 化 , 值 同样 为 0 一 1。 

训练 时 ,如 果 一 个 目标 的 中 心 落 在 了 某 一 个 单元 格 里 , 则 将 该 单元 格 的 类 别 标签 值 设置 
该 目标 ,将 其 预测 的 矩形 框 设置 为 目标 的 矩形 框 。 

损失 函数 采用 平方 和 误差 函数 ,定义 为 

st dB 
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HEP sA coors Fill a 是 人 工 设 定 的 参数 ， 1? 表示 目标 在 第 i 个 网 格 单元 是 否 出 现 ;1 品 表示 第 i 
个 网 格 单元 中 的 第 j 个 和 矩形 预测 器 是 否 负责 本 次 预测 。 

SSD55 也 采用 了 网 格 划分 的 思想 ,与 Faster R-CNN 不 同 的 是 它 没有 候选 区 域 生成 网 
络 , 而 是 直接 用 一 个 卷 积 网 络 进行 目标 位 置 的 预测 和 分 类 。 为 了 检测 不 同 尺 度 的 目标 ,SSD 
对 不 同 卷 积 层 的 特征 图 像 进 行 滑 窗 扫描 ;在 前 面 的 卷 积 层 输出 的 特征 图 像 中 检测 小 的 目标 ， 
在 后 面 的 卷 积 层 输出 的 特征 图 像 中 检测 大 的 目标 。 

整个 卷 积 网 络 以 VGG 网 络 为 基础 ,在 它 的 卷 积 层 后 面 添加 了 一 些 卷 积 层 ,用 于 目标 检 
测 的 多 尺度 特征 提取 。 这 些 添加 的 卷 积 层 输 出 的 不 同 尺 特征 图 像 和 VGG 网 络 最 后 一 个 卷 
积 层 的 输出 图 像 一 起 被 送 入 后 面 用 于 目标 分 类 和 位 置 预测 的 层 中 。SSD 网 络 结构 如 图 15. 21 
所 示 。 

为 了 检测 所 有 位 置 处 的 目标 ,将 卷 积 特征 图 像 中 每 个 位 置 处 目标 矩形 框 的 输出 空间 离 
散 化 为 一 个 默认 矩形 框 的 集合 ,这 些 默 认 和 矩形 框 有 不 同 的 宽 高 比 和 尺度 。 在 检测 时 卷 积 网 
络 为 默认 和 矩形 框 生成 各 类 目标 出 现 的 概率 ,并 对 它们 进行 调整 以 适应 目标 的 形状 。 最 后 对 
各 种 分 辨 率 卷 积 特征 图 像 的 检测 结果 进行 合并 ,以 检测 不 同 大 小 的 目标 。 

ТЕ УСС 网 络 的 卷 积 层 之 后 添加 的 每 个 卷 积 层 可 以 产生 特定 尺度 和 宽 高 比 的 矩形 框 列 
表 。 对 于 mXn 特征 图 像 ,使 用 3X3 的 卷 积 核 来 预测 输出 每 一 个 位 置 属于 某 一 类 目标 的 概 
率 , 以 及 相对 于 默认 矩形 框 的 形状 偏 移 。 在 这 里 定义 了 两 个 概念 。 


А 
424) 机 器 学 习 与 应 用 


























VGG-16 Exua Feature Layers 
throu h Conv5 : 3 la; er 
s VE Classifier: Conv: 3x3x(4x(Classes*4)) 
> 一 | 名 
3=3x(6*(Classes+4)) 8 
-|0 
~) 5 
e 
19 e 
© 
Convé Conv7 РА 
(СӨ (cg `j src) | 5 
° 
Coll 2 =e 
j tT 
бом: 3341024 Conv: 1121024 Conv: Conv: 115128 Conv: 1515 t Conv: 151128 
252 Conv: 39352562 Conv: 35323651 Сопу: 33-2561 





В 15.21 SSD 网 络 结构 (来 自 文献 [35]) 


特征 图 像 单元 (Feature Map Cell)。 将 卷 积 特征 图 像 划 分 成 ;Xs 的 网 格 ,每 一 个 单元 
格 称 为 一 个 特征 图 像 单 元 。 这 样 做 是 为 了 在 特定 尺度 下 检测 不 同位 置 的 目标 。 

BRU SEITE HE (Default Box) 。 它 是 这 些 网 格 对 应 的 一 些 固定 大 小 、 宽 高 比 的 矩形 框 , 即 
为 每 个 特征 图 像 单元 设置 一 组 默认 矩形 框 ,它们 具有 各 种 不 同 宽 高 比 。 这 样 做 是 为 了 在 特 
定 尺度 下 检测 各 种 不 同 大 小 和 形状 的 目标 。 

图 15. 22 是 特征 图 像 单 元 和 默认 和 矩形 框 的 示意 图 。 











15.22 特征 图 像 单元 和 软 认 和 矩形 框 的 示意 图 (来 自 文献 [35]) 


在 训练 时 需要 将 训练 样本 图 像 中 的 真实 目标 和 矩形 与 默认 矩形 匹配 起 来 , 即 每 个 默认 拢 
形 是 否 真 的 代表 了 一 个 目标 。 指 示 变 量 xh € {0,1} 表 示 第 i 个 默认 矩形 和 第 j 个 真实 矩形 
对 于 目标 类 型 p 是 否 匹 配 。 损 失 函 数 定义 为 


Leg = RIS habla Lig) 


其 中 ,NN 为 匹配 的 默认 矩形 的 数量 ;a 是 人 工 设 定 的 参数 ,用 于 平衡 定位 损失 和 置信 度 损 失 。 
定位 损失 函数 是 一 个 光滑 的 L1 损失 函数 ,定义 预测 的 矩形 和 真实 的 矩形 之 间 的 误差 。 假 
设 默 认 和 矩形 的 中 心 点 坐标 为 (cx ,cy) ,宽度 和 高 度 分 别 为 w 和 有 h。 定 位 损失 函数 定义 为 





мб!) = У) У) ack smooth (07 — 2") 
АЛЕН ACH AT MO BLT HE AY softmax 损失 ,定义 为 
Las (z, = - Dag 一 21р 
还 有 一 个 要 解决 的 问题 是 每 个 尺度 的 特征 图 像 使 用 哪些 大 小 和 宽 高 比 的 默认 佐 形 , 它 
根据 尺度 和 宽 高 比 确定 。 默 认 和 矩形 的 尺度 计算 公式 为 






йж винени (25 

















з, = Sin + mee (一 1)，AE [1.т] 
其 中 ,sis 0. 2,5 二 0. 9。 宽 高 比 的 取 值 有 几 种 离散 值 。 上 默认 矩形 的 宽度 和 高 度 计 算 公 
式 为 
ий = s Va, 


hi = s/ Ja, 
这 种 默认 矩形 在 不 同 的 特征 层 有 不 同 的 尺度 大 小 ,在 同一 个 特征 层 又 有 不 同 的 宽 高 比 ， 
因此 ,可 以 覆盖 输入 图 像 中 各 种 目标 大 小 和 宽 高 比 。 


1583 人 脸 关键 点 定位 


人 脸 关键 点 定位 的 目标 是 确定 关键 位 置 的 坐标 ,如 眼睛 的 中 点 、. 鼻 尖 和 嘴 尖 等 。 它 在 人 

脸 识别 、 美 颜 等 功能 中 都 有 应 用 。 这 是 一 个 回归 问题 ,要 实现 的 是 如 下 映射 : 
I — GiasyDsGesyisc Gn y 

其 中 ,I 是 待 处 理 图 像 ;(x;,y;) 是 关键 点 的 坐标 。 用 卷 积 网 络 解决 这 一 问题 最 简单 的 做 法 是 
用 卷 积 网 络 直 接 根据 输入 图 像 预 测 多 个 关键 点 的 坐标 值 。 训 练 时 使 用 标注 了 关键 点 的 人 脸 
图 像 作为 样本 ,关键 点 的 坐标 要 对 人 脸 的 高 度 和 宽度 做 归 一 化 ,缩放 到 0 一 1 范围 内 。 预 测 
时 先 将 人 脸 图 像 缩 放 到 卷 积 网 络 接受 的 输入 尺寸 ,网 络 直接 输出 关键 点 的 坐标 。 对 归 一 化 
的 坐标 进行 反 变换 ,得 到 在 图 像 中 的 坐标 。 图 15. 23 是 人 脸 关键 点 定位 的 结果 。 





15.23 人 脸 关键 点 定位 的 结果 


除 此 之 外 还 有 更 复杂 的 策略 。 文 献 [41] 提 出 了 一 种 用 级 联 的 卷 积 网 络 进行 人 脸 关键 点 
检测 的 方法 ,通过 逐 级 细 化 的 思路 实现 。 这 里 检测 5 个 关键 点 ,分 别 是 左右 眼 的 中 心 LE 和 
REAR N 、 嘴 的 左右 端 LM 和 RM。 采用 了 3 个 层次 的 卷 积 网 络 进行 级 联 ,逐步 求 精 。 第 
一 个 层次 上 包含 3 个 卷 积 网 络 ,分 别称 为 F1`EN1 NMI1 ,输入 分 别 为 整个 人 脸 图 像 .眼睛 和 
鼻子 .鼻子 和 嘴巴 。 每 个 网 络 都 同时 预测 多 个 关键 点 。 对 每 个 关键 点 ,将 这 些 网 络 的 预测 值 
进行 平均 以 减 小 方差 。 


15.84 人 脸 识 别 
在 第 8 章 中 介绍 了 人 脸 识别 的 基本 概念 。 典 型 的 人 脸 识别 算法 由 人 脸 检测 \、 人 脸 对 齐 、 
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特征 提取 ,分 类 4 步 构成 。 人 脸 检 测算 法 在 前 面 已 经 介绍 ,人 脸 对 齐 的 一 般 做 法 是 根据 关键 
点 来 做 姿态 和 表情 校正 ,将 人 脸 图 像 归 一 化 。 分 类 可 以 使 用 各 种 分 类 器 ,如 支持 向 量 机 、 
AdaBoost 算法 。 

与 人 脸 识 别 密切 相关 的 一 个 概念 是 人 脸 验 证 , 即 判断 两 张 人 脸 图 像 是 否 属于 同一 个 人 ， 
这 是 一 个 二 分 类 问题 。 需 要 学 习 到 对 区 分 不 同 的 人 有 用 的 特征 ,保证 同一 个 人 的 不 同人 脸 
图 像 提取 的 特征 向 量 被 判定 为 正 ,而 不 同 的 人 的 两 张 图 像 提 取 的 特征 向 量 被 判定 为 负 。 人 
脸 识 别 可 以 借助 人 脸 验 证 来 实现 。 

在 深度 卷 积 网 络 应 用 于 人 脸 识 别 之 前 ,使 用 的 是 人 工 设计 的 特征 ,典型 的 是 LBP 特征 。 
卷 积 网 络 在 脸 识 别 问 题 中 起 的 主要 作用 是 特征 提取 ,各 种 算法 的 核心 是 构造 有 效 的 损失 函 
数 , 迫 使 神经 网 络 学 到 对 区 分 不 同 的 人 有 用 的 特征 。 

DeepFace 纹 是 用 深度 卷 积 网 络 解决 人 脸 识 别 问题 的 第 一 个 经 典 模型 。 它 采用 ЗЮ AUI 
对 齐 技术 ,对 齐 后 的 人 脸 图 像 缩放 到 固定 大 小 然后 送 入 卷 积 网 络 中 提取 出 4096 维 的 特征 。 
特征 提取 采用 5 个 卷 积 层 。 在 这 里 使 用 了 局 部 卷 积 技术 , 即 每 个 区 域 的 卷 积 核 参 数 不 共享 ， 
其 原因 是 人 脸 不 同 的 位 置 有 不 同 的 特征 。 

在 训练 时 ,最 后 一 个 全 连接 层 的 输出 被 送 入 softmax Bi K РА RUE , fE X H tE HJ Y % SCR 
损失 函数 。 对 特征 向 量 的 分 类 有 3 种 方法 ,分 别 是 直接 计算 向 量 内 积 、 加 权 的 卡 方 距离 和 
Siamese 网 络 。 

DeepID 是 一 系列 方法 , 它 经 历 了 3 代 。DeepID155 的 主要 创新 是 采用 了 多 图 像 块 的 方 
案 , 从 人 脸 多 个 区 域 抽取 出 图 像 块 分 别提 取 特 征 。 在 用 卷 积 网 络 提取 特征 时 ,首先 检测 人 脸 
的 5 个 关键 点 ,分 别 是 两 个 眼睛 的 中 心 . 嘴 的 两 个 角 点 、. 鼻 尖 。 以 每 个 关键 点 为 基点 提取 2 
个 图 像 块 ,总 共 得 到 10 个 图 像 块 。 然 后 使 用 3 种 不 同 的 分 辩 率 ,每 个 分 辨 率 有 2 种 颜色 模 
式 ,分 别 为 彩色 和 黑白 ,这 样 总 共 得 到 60 个 图 像 块 。 训 练 时 ,为 每 个 图 像 块 训练 一 个 卷 积 
网 络 ,这 样 总 共有 60 个 卷 积 网 络 。 每 个 卷 积 网 络 的 最 后 一 层 是 softmax 层 , 有 10000 个 
类 ,对 应 于 训练 样本 的 10000 个 人 。 在 预测 阶段 , 卷 积 网 络 为 每 个 图 像 块 输出 160 维 的 
特征 向 量 。 

作者 使 用 了 两 种 方法 进行 人 脸 验证 ,分 别 是 联合 贝 叶 斯 和 神经 网 络 ,在 这 里 重点 介绍 神 
经 网 络 。 用 于 人 脸 验 证 的 神经 网 络 有 4 层 , 是 一 个 前 馈 型 神经 网 络 。 网 络 接收 的 输入 为 两 
张 人 脸 图 像 的 特征 向 量 ,输出 层 有 一 个 节点 ,代表 两 张 图 像 是 一 个 人 的 概率 ,这 是 一 个 二 分 
类 问题 。 

DeepID2U9 R JH T #1 DeepID1 类 似 的 网 络 结构 。 主 要 创新 是 采用 了 新 的 损失 函数 ,这 
种 损失 函数 的 目标 是 差异 化 不 同人 的 特征 向 量 ,最 小 化 同一 个 人 的 不 同 图 像 特征 向 量 的 差 
异 。 特 征 向 量 通过 两 个 监督 信号 学 习 得 到 ,对 应 于 损失 函数 的 两 个 部 分 。 第 一 个 为 人 脸 认 
证 信号 ,目标 是 将 一 张 人 脸 图 像 分 类 为 n 个 不 同 的 人 中 的 一 个 ,认证 通过 softmax 层 实现 。 
这 个 层 输 出 一 个 对 nn 个 类 的 概率 分 布 向 量 , 训 练 时 采用 交叉 人 。 损 失 函 数 定义 为 














IdentCx,t,bu ) 一 一 3 adis =— nj, 
其 中 ,x 是 特征 向 量 ;t 是 样本 的 目标 类 别 标签 值 ; p; 是 目标 类 别 标签 的 编码 向 量 的 分 量 ; р, 
是 softmax 输出 的 概率 值 ;0 为 softmax 参数 。 为 了 对 所 有 的 类 型 正确 分 类 ,必须 学 习 到 区 
分 不 同人 的 特征 。 
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第 二 个 信号 称 为 验证 信号 ,目标 是 让 同一 个 人 提取 的 特征 向 量 尽量 相似 。 这 个 信号 可 
以 消除 同一 个 人 的 差异 ,具体 做 法 是 直接 进行 正则 化 。 在 这 里 使 用 了 第 2 范 数 的 损失 函数 : 


$ lxx. » =+1 
Verif(x; sX; yi; Ove) = 1 
sy max( n — [х =; 12, ys ——1 


其 中 , 和 x; 是 从 两 张 人 脸 图 像 提 取 的 特征 向 量 。 如 果 两 张 图 像 属于 同一 个 人 则 y; 值 为 
十 1, 否 则 其 值 为 一 1。 对 于 第 一 种 情况 ,目标 函数 要 最 小 化 两 个 特征 向 量 的 差异 ;对 第 二 种 
情况 ,目标 函数 要 最 让 两 个 向 量 的 距离 大 于 间隔 值 xm, 否则 就 会 产生 正 的 损失 。0,. 是 要 学 
习 的 参数 。 整 个 损失 函数 是 认证 损失 函数 和 验证 损失 函数 的 加 权 和 : 
L = Ident + AVerif 

其 中 ,4 是 人 工 设 定 的 系数 。 这 种 思想 和 第 8 章 介绍 的 线性 判别 分 析 类 似 , 线 性 判别 分 析 的 
目标 也 是 最 大 化 类 间 差 异 ,最 小 化 内 类 差异 。 不 同 的 是 线性 判别 分 析 是 线性 映射 ,而 这 里 的 
卷 积 网 络 是 一 个 复杂 的 非 线性 映射 。 

DeepID355 的 卷 积 网 络 有 更 深 的 结构 。 作 者 设计 了 两 种 网 络 ,分 别 借鉴 了 УСС 网 络 
和 GoogLeNet 网 络 的 思想 ,使 用 了 Inception 模块 。 

FaceNet'*? f& Google 公司 提出 的 一 种 人 脸 识别 算法 。 它 没有 用 softmax ЖЖ Md 9: 
函数 进行 训练 ,也 没有 用 最 后 一 个 全 连接 层 的 输出 作为 特征 ,而 是 直接 进行 端 对 端 学 习 得 到 
从 图 像 到 向 量 空间 的 编码 方法 ,然后 用 这 个 向 量 完成 人 脸 识别 \ 人 脸 验 证 和 人 脸 聚 类 等 任 
务 。 为 了 完成 这 一 任务 ,FaceNet 使 用 了 一 种 称 为 Triplet Loss 的 损失 函数 。 

假设 神经 网 络 的 映射 为 /(x) ,其 中 x 是 输入 图 像 . 网 络 的 输出 是 d 维 的 特征 向 量 。 这 
里 附加 一 个 约束 条 件 ,输出 向 量 位 于 单位 球面 上 。 卷 积 网 络 要 确保 的 是 某 一 个 人 的 人 脸 图 
像 和 此 人 的 所 有 其 他 图 像 之 间 的 距离 都 比 和 其 他 人 的 图 像 之 间 的 距离 要 近 , 这 和 之 前 介绍 
的 距离 度量 学 习 的 思想 类 似 , 即 满足 如 下 不 等 式 约束 : 

lxt—x?l$caclx—xli VGnhxtxDeT 
其 中 ,a 为 正 负 样 本 对 之 间 的 距离 ;T 是 所 有 这 种 三 元 组 的 集合 ,其 基数 为 N。 基 于 上 面 的 
定义 ,可 以 得 到 卷 积 网 络 要 优化 的 损失 函数 为 


N 
L= (lat 12 1 х 12 а) 
i=l 


列举 出 所 有 的 三 元 组 计算 量 太 大 .而 且 有 些 三 元 组 满足 约束 条 件 ,对 损失 函数 没有 页 
献 。 为 了 加 快速 度 ,实现 时 挑选 出 违反 上 面 不 等 式 约束 的 三 元 组 尤为 关键 。 给 定 хе, BEDE 
选 的 正 样 本 是 最 大 化 问题 的 解 : 
arg max || f(x?) — f(x?) 18 
要 挑选 的 负 样 本 是 如 下 最 小 化 问题 的 解 : 
arg mins || f(x — f(x) [|$ 
近期 人 脸 识别 算法 的 主要 改进 是 在 损失 函数 上 ,迫使 神经 网 络 能 够 学 习 得 到 对 于 区 分 
不 同 的 两 个 人 有 用 的 特征 ,除了 前 面 介绍 的 各 种 损失 函数 之 外 还 有 Center Loss? , Sphere 
Loss0 中 等 ,算法 的 细节 可 以 阅读 这 些 文献 。 
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1585 图 像 分 割 


图 像 分 割 的 目标 是 确定 图 像 中 每 个 像素 属于 什么 物体 , 即 对 所 有 像素 进行 分 类 。 颜 色 、 
纹理 .边缘 等 信息 先后 都 被 用 于 图 像 分 割 任务 。 使 用 这 些 特 征 的 典型 方法 有 分 水 岭 算法 .区 
域 生长 .图 切割 活动 轮廓 .水平 集 (level set) 算 法 等 。 这 些 方法 都 是 像素 级 别 的 模型 ,没有 
考虑 图 像 语 义 信息 。 

图 像 语 义 分 割 和 图 像 识 别 是 密切 相关 的 问题 ,分 割 可 看 作 是 对 每 个 像素 的 分 类 问题 。 
卷 积 网 络 在 进行 多 次 卷 积 和 池 化 后 会 缩小 图 像 的 尺寸 ,最 后 的 输出 结果 无 法 对 应 到 原始 图 
像 中 的 每 一 个 像素 , 卷 积 层 后 面 接 的 全 连接 层 将 图 像 映射 成 固定 长 度 的 向 量 , 这 也 与 分 割 任 
务 不 符 。 针 对 这 两 个 问题 有 几 种 解决 方案 ,最 简单 的 做 法 是 对 图 像 中 一 个 像素 为 中 心 的 一 块 
区 域 进行 卷 积 ,对 每 个 像素 都 执行 这 样 的 操作 。 这 种 方法 有 两 个 缺点 ; 计算 量 大 ,利用 的 信息 
只 是 本 像素 周围 的 一 小 片区 域 。 更 好 的 方法 是 全 卷 积 网 络 ,这 是 我 们 接 下 来 要 介绍 的 重点 。 

文献 [53] 提 出 了 一 种 称 为 全 卷 积 网 络 (FCN) 的 结构 来 实现 图 像 的 语义 分 割 , 这 种 模型 
从 卷 积 特征 图 像 预测 出 输入 图 像 每 个 像素 的 类 别 。 网 络 能 够 接收 任意 尺寸 的 输入 图 像 ,并 
产生 相同 尺寸 的 输出 图 像 , 输 入 图 像 和 输出 图 像 的 像素 一 一 对 应 。 这 种 网 络 支 持 端 到 端 , 像 
素 到 像素 的 训练 。 

最 简单 的 FCN 的 前 半 部 分 改装 自 AlexNet 网 络 ,将 最 后 两 个 全 连接 层 和 一 个 输出 层 
改 成 3 个 卷 积 层 , 卷 积 核 均 为 1X1 大 小 。 解 决 卷 积 和 池 化 带 来 的 图 像 分 辩 率 缩小 问题 的 思 
路 是 上 采样 。 网 络 的 最 后 是 上 采样 层 , 在 这 里 用 反 卷 积 操作 实现 , 反 卷 积 的 卷 积 核 通过 训练 
得 到 。 在 实现 时 ,在 最 后 一 个 卷 积 层 后 面 接 上 一 个 反 卷 积 层 , 将 卷 积 结果 映射 回 与 输入 图 像 
相等 的 尺寸 。 为 了 得 到 更 精细 的 结果 ,可 以 将 不 同 卷 积 层 的 反 卷 积 结果 组 合 起 来 。 全 卷 积 
网 络 的 结构 如 图 15. 24 所 示 。 
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图 15.24 全 卷 积 网 络 的 结构 


文献 [55] 提 出 一 种 称 为 DeepLab 的 图 像 分 割 方 法 。 这 个 方法 的 创新 有 3 点 : 用 上 采样 
的 滤波 器 进行 卷 积 , 称 为 atrous( 空 间 ) 卷 积 ,以 实现 密集 的 、 像 素 级 的 预测 ;采用 atrous 空间 
金字 塔下 采样 技术 ,以 实现 对 物体 的 多 尺度 分 割 ; 使 用 了 概率 图 模型 ,实现 更 精确 的 目标 边 
界定 位 ,通过 将 卷 积 网 络 最 后 一 层 的 输出 值 与 全 连接 的 条 件 随 机 场 相 结合 而 实现 。 

文献 L56] 提 出 一 种 称 为 SegNet 的 语义 分 割 网 络 ,这 也 是 一 个 全 卷 积 网 络 ,其 主要 特点 
是 整个 网 络 由 编码 器 和 解码 器 构成 。 网 络 的 前 半 部 分 是 编码 器 ,由 多 个 卷 积 层 和 池 化 层 组 
成 。 网 络 的 后 半 部 分 为 解码 器 ,由 多 个 上 采样 层 和 卷 积 层 构成 。 解 码 器 的 最 后 一 层 是 
softmax 层 , 用 于 对 像素 进行 分 类 。 

编码 器 网 络 的 作用 是 产生 有 语义 信息 的 特征 图 像 ;解码 器 网 络 的 作用 是 将 编码 器 网 络 
输出 的 低 分 辨 率 特征 图 像 映 射 回 输入 图 像 的 尺寸 ,以 进行 逐 像素 的 分 类 。 和 解码 器 用 编码 器 
max 池 化 时 记 住 的 最 大 元 素 下 标 值 执行 非 线性 上 采样 ,这 样 上 采样 的 参数 不 用 通过 学 习 得 
到 。 上 采样 得 到 的 特征 图 像 通过 卷 积 之 后 产生 密集 的 特征 图 像 。 整 个 框架 实现 了 完全 端 到 
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端的 训练 。 

编码 器 网 络 的 结构 与 VGG16 网 络 相 同 ,去 掉 了 它 的 全 连接 层 。 解 码 器 网 络 由 多 个 分 
层 的 解码 器 组 成 ,这 些 解码 器 与 编码 器 网 络 中 的 每 个 编码 器 相对 应 。SegNet 网 络 的 结构 如 
图 15. 25 所 示 。 
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15.25 SegNet 网 络 的 结构 (来 自 文献 [56]) 





解码 器 网 络 最 后 的 输出 被 送 入 softmax 层 ,为 每 个 像素 产生 分 类 概率 输出 。 编 码 器 网 
络 中 的 每 一 个 编码 器 首先 执行 卷 积 操作 ,然后 执行 批量 归 一 化 操作 , 接 下 来 是 ReLU 激活 
函数 操作 ,最 后 是 最 大 池 化 操作 。 

解码 器 网 络 中 的 每 个 解码 器 首先 执行 最 大 上 采样 操作 。 对 于 上 采样 的 输入 图 像 ,根据 
编码 器 中 对 应 的 最 大 池 化 时 记 住 的 最 大 元 素 的 下 标 , 将 该 位 置 的 元 素 设置 为 上 采样 输入 图 
像 中 对 应 位 置 的 值 , 其 他 元 素 设置 为 0, 这 和 最 大 池 化 在 反 向 传播 时 的 做 法 相同 。 

接 下 来 对 上 采样 图 像 执行 卷 积 操作 , 卷 积 核 通过 训练 得 到 。 最 后 一 个 解码 器 的 输出 Ë 
像 被 送 入 softmax 分 类 器 进行 处 理 。 这 个 分 类 器 对 每 个 像素 单独 进行 处 理 , 最 后 的 输出 是 
& 通 道 的 概率 图 像 ,A 为 类 型 数 , 即 要 分 割 的 区 域 的 种 类 。 最 后 将 每 个 像素 分 为 概率 最 大 的 
那个 类 ,完成 图 像 的 分 割 。 


15.86 边缘 检测 


边缘 检测 的 目标 是 找 出 图 像 中 所 有 的 边缘 像素 点 。Sobel 算 子 和 拉 普 拉 斯 算 子 都 可 以 
通过 卷 积 (计算 差分 , 即 水 平和 垂直 方向 的 偏 导数 ) 和 阔 值 化 的 方式 提取 出 图 像 的 边缘 。 更 
复杂 的 方法 有 Canny 算 子 , 它 首先 用 Sobel 算 子 得 到 梯度 图 像 .在 进行 阔 值 化 之 后 进行 非 最 
大 抑制 ,最 后 通过 边缘 跟踪 得 到 更 为 干净 的 边缘 图 。 与 图 像 分 割 一 样 , 纯 图 像 处 理 的 方法 只 
在 像素 一 级 进行 操作 ,没有 利用 图 像 语义 和 结构 信息 。 边 缘 和 轮廓 检测 可 以 看 作 是 二 分 类 
问题 , 正 样本 为 边缘 点 像素 , 负 样 本 为 非 边 缘 像素 。 与 图 像 分 割 相同 ,边缘 检测 也 是 逐 像素 
分 类 问题 。 

文献 [59] 提 出 了 一 种 称 为 DeepEdge 的 边缘 提取 方法 ,这 是 一 种 基于 图 像 块 的 方法 , 卷 
积 网 络 作 用 于 原始 图 像 中 以 每 个 像素 为 中 心 的 小 图 像 块 ,判断 该 像素 是 否 为 边缘 像素 。 轮 
廓 检测 流程 分 为 如 下 几 步 。 

(1) 用 Canny 算 子 提取 候选 轮廓 点 , 它 输 出 的 边缘 图 像 中 所 有 的 边缘 点 是 候选 轮廓 点 。 

(2) 为 所 有 候选 轮廓 点 截取 4 个 尺度 的 子 图 像 . 将 它们 同时 送 入 卷 积 网 络 中 进行 处 理 。 

СЗ) 将 卷 积 的 结果 送 入 2 个 子 网 络 中 进行 处 理 , 第 一 个 网 络 用 于 分 类 ,第 二 个 网 络 用 于 
回归 。 

(4) 将 这 两 个 网 络 的 输出 值 进行 加 权 平 均 ,得 到 最 后 的 分 数值 ,这 个 分 数值 表示 该 候选 
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轮廓 点 是 否 真 的 是 轮廓 点 。 

(5) 对 上 一 步 的 输出 分 数 进行 冰 值 化 ,得 到 最 终 的 轮廓 图 像 。 

整个 网 络 的 前 半 部 分 为 一 个 5 层 的 卷 积 网 络 ,网络 的 权重 直接 从 一 个 大 规模 的 目标 检 
测 数据 库 预 训练 得 到 。 为 了 进行 多 尺度 处 理 , 输 入 图 像 被 缩放 为 4 个 不 同 大 小 的 图 像 ,并 行 
地 送 入 这 个 卷 积 网 络 进行 处 理 。 这 4 个 卷 积 网 络 的 输出 送 入 一 个 交叉 的 子 网 络 进行 处 理 ， 
这 个 子 网 络 包含 两 个 独立 训练 的 分 支 : 第 一 个 分 支 用 来 预测 轮廓 似 然 值 ;第 二 个 分 支 用 来 
确定 轮廓 是 否 出 现在 某 一 给 定点 处 。 

两 个 子 网 络 都 是 全 连接 网 络 , 各 自 包括 两 个 全 连接 层 。 第 一 个 子 网 络 进行 二 分 类 ,判断 
一 个 像素 点 是 否 是 轮廓 点 。 第 二 个 子 网 络 执行 回归 任务 ,回归 的 目标 是 人 类 标注 员 中 认为 
这 一 点 处 在 轮廓 的 人 的 比例 。 训 练 时 通过 从 训练 图 像 中 抽取 出 图 像 片 段 来 训练 子 网 络 。 
图 15. 26 为 边缘 轮廓 检测 的 结果 。 


图 15.26 边缘 轮廓 检测 结果 (来 自 文献 [60]) 








图 15. 26 中 第 一 列 为 原始 图 像 ,第 二 列 为 Canny 算 子 边缘 检测 结果 ,第 三 列 为 
DeepEdge 网 络 的 原始 输出 ,第 四 列 为 DeepEdge 输出 结果 阅 值 化 后 的 结果 ,第 五 列 为 人 工 
标注 的 真实 边缘 图 像 。 

文献 L57] 提 出 了 一 种 称 为 DeepContour 的 物体 轮廓 提取 算法 ,这 也 是 一 种 基于 图 像 块 
的 方法 。 这 里 将 正 样本 ( 即 轮廓 ) 划 分 为 多 个 子 类 ,并 且 用 不 同 的 模型 拟 合 这 些 子 类 。 作 者 
设计 了 一 种 新 的 损失 函数 , 称 为 Positive-Sharing Loss, 各 个 子 类 共享 正 样本 类 的 损失 。 在 
这 里 用 卷 积 网 络 对 小 的 图 像 块 进行 分 类 ,这 些 图 像 块 从 整个 图 像 中 切 分 出 来 ,可 能 包括 轮 
廓 ,也 可 能 不 包括 轮廓 。 

首先 从 手工 标注 的 二 值 轮廓 图 像 中 抽取 小 图 像 块 ,实现 时 只 使 用 中 心 点 被 轮廓 穿 过 的 
那些 图 像 块 。 然 后 对 图 像 块 进行 聚 类 ,得 到 形状 类 别 , 典 型 的 如 直线 段 或 者 更 复杂 的 结构 。 
假设 得 到 的 形状 类 型 数 为 n。 

接 下 来 根据 这 个 形状 类 为 从 彩色 图 像 抽 取 的 图 像 块 赋 以 标签 值 。 如 果 图 像 块 是 一 个 
轮廓 块 ,标签 值 为 y=k.k€ (1.2. n) ,与 该 图 像 块 在 手工 标注 轮廓 图 像 中 的 块 对 应 ;否则 
是 背景 块 ,标签 值 为 0。 所 有 的 轮廓 块 称 为 正 样 本 块 ,背景 块 称 为 负 样本 块 。 训 练 时 从 数据 
集 的 训练 集 抽 取 了 200 万 个 图 像 块 , 正 负 图 像 块 的 数量 相等 。 然 后 将 这 些 数据 送 入 卷 积 网 
络 中 进行 训练 。 
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这 里 没有 使 用 softmax 损失 函数 ,因为 将 正 样本 错 分 为 其 他 类 型 的 正 样本 并 不 重要 , 重 
要 的 是 正 样本 和 负 样 本 之 间 的 错 分 ,即将 轮廓 和 非 轮廓 图 像 块 混淆 。 为 此 使 用 了 新 的 损失 
函数 。 假 设 有 т 个 训练 样本 (x;,y;) ,对 第 i 个 样本 softmax 输出 值 为 概率 向 量 p... TAK PR 
数 定义 为 


L= L (Аас = бары) + DUG = а pao) ) 
ici ja 


其 中 ,L。 为 标准 的 softmax ЖЖ Д1Й Jc PHA 为 人 工 设 定 的 参数 。 损 失 函 数 的 第 二 部 分 是 
对 正 负 样本 错 分 的 一 个 强化 惩罚 ,忽略 正 样本 之 间 的 错 分 。 

在 进行 轮廓 检测 时 ,将 图 像 块 中 每 个 像素 从 卷 积 网 络 ЕСТ 层 提 取出 的 特征 向 量 串 行 地 
送 入 结构 化 的 随机 森林 分 类 器 中 进行 预测 ,判断 其 是 否 为 轮廓 像素 。 

文献 [58] 提 出 了 一 种 称 为 整体 式 嵌 套 (Holistically-Nested) 的 边缘 检测 算法 。 整 体式 
是 指 整个 算法 是 端 到 端的 , 谋 套 是 指 在 边缘 检测 的 过 程 中 通过 不 断 地 细 化 求解 ,得 到 精确 的 
边界 图 像 。 网 络 对 输入 图 像 进行 多 尺度 的 处 理 , 这 通过 卷 积 网 络 运行 过 程 中 得 到 的 多 个 尺 
度 的 特征 图 像 进行 处 理 融 合 而 实现 。 

算法 的 训练 样本 由 原始 图 像 与 其 对 应 的 二 值 化 边缘 图 像 组 成 ,假设 有 /个 训练 样本 。 
在 这 里 将 原始 图 像 x: 和 二 值 化 图 像 y; 都 看 作 是 向 量 。 假 设 神经 网 络 要 训练 的 参数 为 w。 
整个 网 络 包括 5 个 卷 积 层 ,这 些 卷 积 层 的 结果 都 被 用 来 进行 分 类 ,判断 每 一 个 像素 是 否 为 边 
缘 像素 。 这 样 ,可 以 得 到 5 个 尺度 的 边缘 图 像 。 称 这 些 卷 积 层 为 旁 侧 输出 层 。 假 设 有 M 个 
旁 侧 输出 层 , 每 个 层 关联 一 个 分 类 器 ,这 些 层 的 权重 参数 表示 为 

w= (WY WO ,.... 90) 


首先 定义 这 些 层 的 损失 函数 为 
La QW WY = Dai Qo (Ww ) 


它 由 每 个 层 的 损失 函数 构成 ， 每 个 层 的 损失 函数 则 由 _- 张 图 像 所 有 像素 x 以 及 对 应 的 
边缘 图 像 的 所 有 像素 值 y 计算 得 到 。 如 果 第 i 个 像素 为 边缘 像素 则 y, 为 1, 否 则 y; 为 0。 
边缘 像素 的 下 标 构 成 的 集合 为 y+ ,由 非 边 缘 像素 的 下 标 构成 的 集合 为 y- 。 每 一 层 的 损失 
函数 定义 为 

Г (Wow™ ) =—8>) InpCy; = 1 | хз, о) — 


jEr 


(1—89 Уру; = 0 | х.ж?) 


јЄу_ 
3x fe Se OHA A PR {Н a L. BUR ЖЖ 8, 用 于 对 边缘 像素 和 非 边缘 像素 两 类 进行 
平衡 ,因为 在 自然 图 像 中 ,边缘 像素 远 比 非 边缘 像素 少 。 权 重 为 非 边缘 像素 数 占 总 像素 数 的 
比例 。 
假设 每 一 个 旁 侧 输出 层 的 卷 积 输出 值 为 Аш! «o 为 sigmoid 函数 ,通过 它 可 以 构造 边缘 
Ag: 














Yap = 0 AQ) 
定义 融合 的 边缘 图 像 为 
=о(У,һ„А&Р) 
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然后 构造 融合 损失 函数 为 
Гл. (Wow В) = Dist Ў.) 
Hp. 
h = (hy sho mh 
为 融合 权重 ,Dist 为 预测 边缘 图 像 与 真实 边缘 图 像 之 间 的 距离 EH ED ЖМ. EIS 
损失 函数 由 旁 侧 损失 函数 与 融合 损失 函数 的 和 构成 ,这 样 整个 网 络 的 训练 相当 于 求解 如 下 
最 小 化 问题 ; 
(W.w.h)' = arg min (Lsae (Wsw) + Line (W.w.h)) 
得 到 了 网 络 的 所 有 参数 之 后 ,就 可 以 用 它 预 测 出 边缘 图 像 。 


1587 风格 迁移 


风格 迁移 的 目标 是 把 输入 图 像 变 成 另 一 种 风格 ,如 油画 风格 或 者 凡 。 高 风格 ,但 要 保持 
和 输入 图 像 的 内 容 相同 ,这 是 一 个 根据 两 张 图 像 预测 一 张 图 像 的 问题 。 

文献 [60] 提 出 了 一 种 用 卷 积 网 络 进行 风格 迁移 的 方法 。 在 这 里 将 风格 看 成 是 图 像 的 纹 
理 特征 ,风格 迁移 看 成 是 提取 待 迁移 图 像 的 语义 及 内 容 信 息 ,然后 将 纹理 特征 作用 于 该 图 
像 ,得 到 目标 风格 的 输出 图 像 。 

算法 的 输入 包括 一 张 风格 图 像 和 一 张 要 进行 风格 迁移 的 内 容 图 像 , 输 出 的 图 像 内 容 和 
内 容 图 像 保持 一 致 ,风格 和 风格 图 像 保持 一 致 。 处 理 流 程 如 下 。 

(1) 用 卷 积 网 络 提取 风格 图 像 的 风格 特征 ,内 容 图 像 的 内 容 特征 。 

(2) 从 一 张 白 噪声 图 像 开始 迭代 生成 目标 图 像 , 优 化 的 目标 是 使 得 目标 图 像 的 风格 特 
征 与 风格 图 像 相似 ,内 容 特 征 与 内 容 图 像 相似 。 

这 里 的 关键 是 如 何 用 卷 积 网 络 提取 内 容 特 征 和 风格 特征 。 给 定 一 张 输入 图 像 x, 卷 积 
网 络 通过 每 一 层 的 卷 积 滤波 器 输出 对 其 进行 编码 。 如 果 某 个 卷 积 层 有 N, 个 卷 积 核 , 则 其 
输出 包含 N, 张 特征 图 像 , 每 张 图 像 的 尺寸 为 M, ,等 于 图 像 的 高 度 乘 以 宽度 。 第 /个 卷 积 层 
的 输出 响应 可 以 转换 成 N, x M, 的 特征 矩阵 F' ,其 元 素 Я Г 层 的 第 i 个 卷 积 滤波 器 在 
第 j 个 位 置 的 响应 值 。 

在 这 里 要 做 的 是 找到 另外 一 张 图 像 , 它 的 卷 积 输 出 响应 值 和 原始 图 像 的 卷 积 输出 响应 
值 相 匹配 。 假 设 p 是 内 容 图 像 ,x 是 生成 的 图 像 ,P ТЕ" 是 它们 在 第 1 层 的 特征 矩阵 。 两 
个 特征 表示 之 间 的 均 方 误差 损失 为 


Los (P 0X01) = +>, — РУ)? 
ij 


可 以 使 用 反 向 传播 算法 计算 损失 函数 对 图 像 x 的 梯度 值 ,从 而 迭代 更 新 图 像 的 值 ,直到 
它 在 某 一 层 的 输出 响应 值 和 原始 图 像 的 输出 响应 值 一 致 。 

卷 积 网 络 前 面 卷 积 层 输出 的 特征 代表 的 是 图 像 像 素 级 细节 信息 ,后 面 卷 积 层 输出 的 特 
征 代表 的 是 图 像 的 更 大 尺度 的 物体 和 布局 信息 。 因 此 ,在 表示 内 容 特征 时 使 用 了 后 面 卷 积 
层 特征 ,表示 风格 特征 时 使 用 了 前 面 卷 积 层 的 特征 。 

为 了 描述 风格 特征 ,使 用 了 为 捕获 纹理 特征 而 设计 的 一 种 特征 空间 。 这 种 特征 空间 可 
以 通过 使 用 卷 积 网 络 任何 一 个 卷 积 层 的 输出 响应 值 来 构造 , 它 包含 不 同 滤波 器 输出 响应 值 
之 间 的 相关 性 。 相 关 性 用 Gram 矩阵 G 表示 ,是 一 个 N, XN, 的 矩阵 ,其 元 素 为 卷 积 网 络 第 


! 层 的 特征 图 像 ; 和 j 的 向 量 内 积 : 
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通过 包含 多 个 层 的 特征 相关 性 ,可 以 得 到 输入 图 像 固定 的 多 尺度 的 表示 。 它 捕获 了 图 
像 的 纹理 信息 而 不 包含 全 景 布局 信息 。 同 样 地 ,可 以 根据 风格 特征 重建 一 张 图 像 ,使 得 它 的 
风格 特征 与 输入 图 像 的 风格 特征 一 致 。 初 始 时 ,给 定 一 张 白 噪声 图 像 ,然后 用 梯度 下 降 法 选 
代 更 新 它 。 目 标 是 让 这 张 图 像 的 Gram 矩阵 和 风格 图 像 的 Gram 矩阵 元 素 的 均 方 误差 最 
小 化 。 

假设 a 是 风格 图 像 ,x 是 生成 的 图 像 ,4: AG! 是 它们 在 第 /1 层 的 风格 特征 矩阵 。 第/ 层 
的 损失 定义 为 


E, = туни? 2% — AL)? 
风格 损失 函数 为 各 层 的 损失 函数 之 和 , 即 
Las (a, x) = Swe, 


其 中 ,wi 为 权重 系数 。 类 似 地 可 以 定义 内 容 损失 Le。 mo 同样 地 ,可 以 用 反 向 传播 算法 计算 
出 损失 函数 对 x 的 梯度 值 。 有 了 上 面 定 义 的 内 容 特征 和 风格 特征 ,就 可 以 将 一 张 风格 图 像 
a 的 风格 迁移 到 一 张 内 容 图 像 p 了。 具体 做 法 是 生成 一 张 图 像 , 它 同 时 能 匹配 的 a 风格 和 
р 的 内 容 。 从 一 张 白 噪声 图 像 开 始 ,用 梯度 下 降 法 迭代 更 新 它 , 最 终 得 到 要 生成 的 图 像 。 梯 
度 下 降 法 的 目标 函数 是 让 这 种 生成 的 图 像 的 风格 特征 和 图 像 a 的 风格 特征 一 致 ,同时 它 的 
内 容 特 征 和 p 的 内 容 特 征 一 致 , 即 最 小 化 如 下 目标 函数 : 
Lia (Ppa,X) = aL content (Pp +X) + BL „у. (а, х) 
其 中 ,a、B8 为 人 工 设 定 的 权重 系数 。 和 迭代 结束 之 后 就 得 到 了 风格 迁移 的 结果 图 像 。 


158.8 ”图 像 增强 


图 像 增强 的 目标 是 提升 图 像 的 对 比 度 , 最 简单 的 有 直方 图 均衡 化 、 件 马 校正 等 方法 。 文 
献 [77J 提 出 了 一 种 用 卷 积 神经 网 络 进行 图 像 增强 的 方法 。 其 基本 思想 是 学 习 人 工 对 图 像 进 
行 增强 调整 的 模型 。 这 种 方法 有 非常 好 的 效果 ,而 且 可 以 在 移动 设备 上 达到 实时 。 

在 进行 图 像 增强 时 , 卷 积 网 络 输出 的 是 原始 图 像 的 低 分 辨 版 本 ,进行 双边 空间 中 的 一 系 
列 仿 射 变换 ,然后 对 这 些 仿 射 变换 进行 保 边缘 的 上 采样 。 再 将 上 采样 后 的 变换 作用 于 原始 
输出 图 像 , 得 到 增强 后 的 图 像 。 这 个 方法 的 关键 点 有 3 个 

CD 大 部 分 的 预测 在 低 分 状 率 的 双边 网 格 上 进行 ， 在 双边 网 格 中 ， 每 个 像素 的 + 和 y 坐 
标 用 第 三 个 维度 进行 增 广 , 这 个 维度 是 像素 颜色 值 的 函数 。 

(2) 神经 网 络 的 预测 输出 是 原始 图 到 目标 图 像 的 变换 ,而 不 是 直接 预测 目标 图 像 。 在 
这 里 学 习 的 是 局 部 仿 射 颜色 变换 。 

СЗ) 虽然 训练 和 预测 都 是 对 低 分 辩 率 的 数据 进行 的 ,但 是 训练 时 的 损失 函数 却 是 定义 
在 原始 分 辩 率 的 图 像 上 的 。 

假设 原始 输入 图 像 为 ,进行 预测 的 低 分 状 率 图 像 为 1。 首先 I 被 送 入 到 一 系列 的 卷 积 
层 中 进行 处 理 , 提 取 图 像 的 低层 特征 。 最 后 一 个 卷 积 层 的 输出 特征 图 像 被 送 入 两 个 不 对 称 
的 分 支 中 进行 处 理 。 第 一 个 分 支 为 全 卷 积 结构 .负责 学 习 图 像 的 局 部 特征 ,这 些 特征 在 传播 
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图 像 数据 的 同时 保持 了 空间 信息 。 第 二 个 分 支 同 时 使 用 了 卷 积 和 全 连接 层 ,输出 固定 长 度 
的 向 量 ,表示 图 像 的 全 局 特征 ,如 场景 类 型 ,是 室内 还 是 室外 。 它 的 感受 野 包 含 整个 输入 图 
像 。 两 条 路 径 的 输出 值 融合 成 一 个 特征 集合 。 然 后 用 一 个 逐 点 线性 变换 层 进行 处 理 ,输出 
最 终 的 数组 。 这 个 数组 是 仿 射 变换 系数 的 双边 网 格 。 

下 面 来 看 局 部 特征 提取 的 细节 。 首 先 对 低 分 辩 率 图 像 工 进行 一 系列 的 卷 积 。 假 设 第 i 
个 卷 积 层 的 输出 图 像 为 $ 。 

接 下 来 将 上 一 步 输出 的 卷 积 图 像 送 入 第 一 个 分 支 ( 即 局 部 分 支 ) 中 进行 处 理 。 在 这 个 分 
支 中 ,每 一 层 的 卷 积 核 个 数 相同 ,并 且 输 出 图 像 的 分 辩 率 相同 。 

同时 第 一 步 的 输出 图 像 被 送 入 第 二 个 分 支 ( 即 全 局 分 支 ) 中 进行 处 理 。 由 于 使 用 了 全 连 
接 层 ,因此 ,整个 网 络 的 输入 图 像 的 尺寸 必须 固定 。 第 二 个 分 支 输出 64 维 的 向 量 ,包含 图 像 
的 全 局 信息 ,作为 先 验 知识 来 调节 局 部 分 支 的 预测 结果 。 

接 下 来 ,将 局 部 分 支 和 全 局 分 支 的 输出 结果 进行 融合 ,然后 用 ReLU 激活 函数 进行 变 
换 , 输 出 一 个 特征 数组 : 

F.[z,y] = o (b, + Dwet Deel [xz,y]) 
然后 用 1X1 的 线性 预测 产生 输出 : 
A.[z.y] = b, + ore [х,у] 

到 此 为 止 ,神经 么 网 络 低 分 辩 率 的 输入 图 像 产 生 了 最 终 的 输出 特征 图 像 4。 将 这 张 图 像 

看 作 是 三 维 图 像 在 第 三 个 维度 上 的 展开 : 
Axa. [£y] >A. [х,у,<] 

在 这 里 d 是 网 格 的 深度 。 按 照 这 种 解释 ,可 以 将 A 看 作 是 16X16X8 的 双边 网 格 ,每 
个 网 格 单元 包含 12 个 成 员 , 是 一 个 3X4 的 仿 射 颜色 变换 的 系数 矩阵 。 

前 面 根据 低 分 状 率 图 像 了 通过 卷 积 网 络 得 到 了 双边 网 格 系数 数组 , 接 下 来 要 将 它 变 换 
回 输入 图 像 工 的 高 分 辩 率 空间 ,以 产生 最 终 的 增强 结果 图 像 。 在 这 里 ,通过 4 对 进行 线性 插 
值得 到 

















A,[z,y]= 256 — DeG,y —j)z(d.g[z.y] U ЮА, [ish] 
其 中 ,ss Ms, 分 别 为 网 格 数组 与 原始 输入 图 像 的 宽 高 比 ;g 是 单 通道 的 制导 映射 矩阵 。 这 
里 使 用 了 线性 插值 核 : 
т (+) = тах (1— |*|.0) 

通过 上 面 的 变换 ,可 得 到 高 分 辩 率 的 仿 射 变换 矩阵 4。 

还 有 一 个 没有 解决 的 问题 是 怎么 得 到 g。 对 于 全 分 辩 率 图 像 工 .我们 提取 n, 个 全 分 辩 
率 特 征 $。 最 简单 的 做 法 是 直接 用 $= 了 ,此 时 表示 原始 输入 图 像 的 3 个 通道 。 根 据 它 可 以 
得 到 8: 


2 
#[х›у]= b+ >) (МТ. ф.[х.у]+ 5) 
< 一 0 


其 中 ,M7 是 3X3 颜色 变换 矩阵 的 行 ;5b 和 6b: 是 偏 置 ;p. 是 逐 元 素 的 线性 变换 函数 ,按照 下 式 
计算 : 


15 
p(x) = Pla, maxGr — t,;.0) 
i=0 


А 
ТАА 
HSH ертен 1436 


参数 M a t b b HIM ES [028 83 529 — I] t EIL A8]. M D FE DR CIERRE ea tb. 
bI HG EO HE о. 是 [0,1] 上 的 恒 等 变 换 。 
在 得 到 A 之 后 ,可 以 通过 它 得 到 最 终 的 增强 结果 图 像 的 每 个 通道 ; 


O.[z,y]= A, Hate +t 2; Astape Lr ype Dx. y] 
网 络 的 参数 通过 对 输入 输出 图 像 对 训练 得 到 。 假 设 训练 样本 集 为 
D = {(1;.0;)} 
其 中 ,I; 为 原始 图 像 ;0; 为 增强 后 的 图 像 。 损 失 函 数 定义 为 


1 
L= 12-0, 11° 
Tor} 15-01 


1589 三 维 视觉 


卷 积 神经 网 络 被 成 功 地 用 于 根据 单 张 图 像 估计 深度 信息 。 文 献 [61] 提 出 了 一 种 用 多 尺 
度 的 卷 积 网 络 从 单 张 图 像 估计 深度 的 方法 ,在 这 里 ,深度 信息 只 是 相对 数据 , 即 图 像 中 每 个 
像素 离 摄像 机 的 远近 关系 ,而 不 是 真实 的 物理 距离 。 由 于 每 个 像素 点 都 会 预测 出 一 个 深度 
值 ,因此 ,这 是 一 个 逐 像素 的 回归 问题 。 

系统 的 输入 是 单 张 RGB 图 像 ,输出 是 深度 图 ,与 输入 图 像 尺 寸 相 同 。 系 统 由 两 个 卷 积 
网 络 层 且 组 成 ,第 一 个 网 络 对 整个 图 像 进行 粗 的 全 局 深度 预测 ,第 二 个 卷 积 网 络 用 局 部 信息 
对 全 局 预测 结果 进行 求 精 。 下 面 分 别 介 绍 这 两 个 网 络 的 结构 。 

第 一 个 网 络 对 整个 图 像 深度 进行 粗 预 测 , 其 输入 为 原始 RGB 图 像 。 第 二 个 网 络 以 第 一 
个 网 络 的 结果 图 像 以 及 原始 RGB 图 像 为 输入 ,对 第 一 个 网 络 的 预测 结果 进行 细 化 和 调整 ， 
得 到 最 终 的 深度 图 像 。 

第 一 个 卷 积 网 络 包括 5 个 卷 积 层 ,2 个 全 连接 层 。 这 个 网 络 能 够 对 图 像 进行 全 局 理解 ， 
如 图 像 的 灭 点 ,每 个 物体 的 位 置 。 最 后 输出 图 像 的 分 辨 率 为 原始 图 像 的 1/4。 

第 二 个 网 络 只 有 卷 积 层 ,包括 3 个 卷 积 层 。 第 一 个 卷 积 层 以 原始 图 像 为 输入 ,第 二 个 卷 
积 层 以 第 一 个 卷 积 层 的 输出 以 及 第 一 个 网 络 的 输出 为 输入 。 第 二 个 网 络 的 最 终 输出 图 像 和 
原始 输入 图 像 的 尺寸 相同 。 

假设 预测 的 深度 图 像 为 y, 真 实 的 深度 图 像 为 y" ,它们 都 及 个 像素 。 误 差 衡量 指标 
使 用 对 数 空间 的 尺度 不 变 均 方 误差 ,定义 为 


D(y.y') = 2; 21 n: — Iny? -FaCy y 0? 
i=1 





Rp. 
aCy.y' 0 = 45) dny; — 1пу;) 
训练 时 的 每 个 样本 为 一 张 RGB 图 像 以 及 与 它 对 应 的 人 工 标注 的 深度 图 所 组 成 的 图 像 
对 。 与 误差 衡量 指标 类 似 , 训 练 时 的 损失 函数 也 要 保证 尺度 不 变性 ,定义 为 
Lty,y*) = Ta: -A(X4) 
其 中 : 
d, = 1пу; — Iny? 


А 
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其 中 ,4 是 人 工 设 定 的 参数 。 

更 进一步 ,文献 [62] 提 出 了 一 种 用 多 尺度 卷 积 网 络 从 单 张 图 像 同 时 估计 深度 和 法 向 量 
的 方法 。 卷 积 网 络 的 输入 为 单 张 RGB 图 像 , 输 出 为 3 张 图 像 ,分 别 为 深度 图 手 法 向 量 图 和 
物体 分 割 标记 图 。 

这 个 卷 积 网 络 包括 3 个 尺度 ,形成 级 联结 构 。 每 个 尺度 的 第 一 层 都 接收 原始 RGB 图 像 
作为 输入 ,另外 还 接收 上 一 个 级 卷 积 网 络 的 输出 作为 输入 ,这 个 输出 是 经 过 上 采样 的 。 

训练 时 的 损失 函数 由 深度 法 向 量 、 语 义 分 割 标记 3 部 分 构造 。 假 设 D 为 预测 的 深度 
图 ,D" 为 真实 的 深度 图 ,d 为 二 者 的 差 。 深 度 损失 定义 为 

Los (D,D*) = ÈX d - 35 ( Dds)’ € 19] (ay + y») 

其 中 ,n 为 图 像 中 的 合法 像素 数 ;V d, MV ud; 为 差 值 图 像 在 水 平和 垂直 方向 的 差分 。 不 合 
法 的 像素 是 指 在 标注 图 像 中 这 个 像素 没有 深度 值 。 

法 向 量 为 三 维 向 量 。 假 设 N 为 预测 的 法 向 量 图 ,N* 为 真实 的 法 向 量 图 ,法 向 量 损失 定 
义 为 

Lou NN*) =— ÈDI N e N? =— N: N° 


п 
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其 中 ,C; 为 第 i 个 像素 经 过 softmax 变换 后 的 概率 输出 值 。 每 一 个 训练 样本 由 原始 图 像 Ж 
度 图 像 .法 向 量 图 像 .语义 分 割 标 注 图 像 组 成 。 
15.810 目标 跟踪 

目标 跟踪 是 机 器 视觉 领域 中 的 一 个 重要 问题 , 它 分 为 单 目标 跟踪 与 多 目标 跟踪 两 种 问 
题 。 前 者 只 跟踪 单个 目标 ,后 者 要 对 多 个 目标 同时 进行 跟踪 。 单 目标 跟踪 是 一 个 状态 预测 
问题 , 它 根据 目标 在 之 前 帧 中 的 位 置 . 大 小 、 外 观 和 运动 信息 估计 在 当前 帧 中 的 位 置 . 大 小 等 
状态 。 如 果 只 考虑 速度 而 不 考虑 加 速度 ,目标 运动 的 动力 学 模型 为 


Xa = х, T Ar, 





Ут = y, + Ay, 

在 这 里 ,zy 为 1+ 时 刻 目 标 在 图 像 平 面 内 的 坐标 ;Ax, Ду, 为 上 时 刻 目 标的 速度 。 根 据 
这 两 个 量 ,预测 出 目标 在 下 一 个 时 刻 的 位 置 。 人 们 称 目 标的 位 置 坐标 .速度 .加 速度 等 为 状 
态 。 单 目标 跟踪 要 做 的 就 是 预测 目标 在 每 个 时 刻 的 状态 值 。 

典型 的 目标 状态 预测 算法 有 卡尔 曼 滤波 和 粒子 滤波 器 ,它们 对 当前 时 刻 的 状态 进行 预 
测 ,然后 根据 检测 得 到 的 实际 状态 进行 修正 。 直 接 定位 物体 大 小 和 位 置 的 方法 有 Mean 
Shift\TLD, 相 关 性 滤波 如 KCF 等 算法 。 其 中 有 一 类 方法 是 通过 检测 来 实现 跟踪 ,具体 做 
法 是 确定 要 跟踪 的 目标 之 后 ,在 后 续 的 帧 中 检测 该 目标 来 完成 跟踪 。 

与 图 像 分 类 .目标 检测 等 问题 相 比 ,深度 学 习 在 目标 跟踪 问题 上 的 优势 目前 体现 得 不 太 
明显 ,主要 原因 是 缺乏 大 量 的 训练 样本 来 训练 用 于 检测 要 跟踪 的 目标 的 神经 网 络 。 卷 积 神 
经 网 络 用 于 跟踪 问题 的 一 般 做 法 是 通过 在 线 训练 得 到 目标 检测 器 ,在 当前 帧 中 进行 检测 。 
1 于 训练 样本 很 少 ,因此 先 离线 训练 一 个 检测 器 .然后 根据 要 检测 的 目标 对 模型 进行 微调 。 
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文献 [63] 用 堆 秋 的 降 噪 自动 编码 器 进行 目标 跟踪 。 在 这 里 ,用 神经 网 络 提取 图 像 的 特 
征 , 用 离线 的 数据 无 监督 地 训练 这 个 模型 ,然后 用 sigmoid 函数 进行 分 类 。 在 跟踪 时 通过 在 
目标 周围 抽取 图 像 块 采样 在 线 训练 这 个 神经 网 络 , 不 断 地 更 新 模型 以 适应 目标 外 观 的 变化 。 

文献 [64] 用 卷 积 神经 网 络 来 实现 目标 的 检测 以 用 于 目标 跟踪 。 网 络 的 输入 为 固定 尺寸 
的 图 像 ,包含 3 个 卷 积 层 , 输 出 为 概率 图 像 ,表示 该 位 置 为 目标 的 概率 。 在 卷 积 层 和 全 连接 
层 之 间 加 入 了 SPP 网 络 中 的 SPP 池 化 层 , 以 提高 目标 定位 的 精度 。 

整个 网 络 先 用 ImageNet 的 目标 检测 数据 集 进 行 离线 训练 ,这 样 就 具有 区 分 目标 和 背 
景 的 能 力 。 离 线 训练 时 的 损失 函数 为 


50 50 


min, >) > ) — (1—%)1а(1— ру) — tjlnCpj) 


Ж. py 为 神经 网 络 的 预测 图 像 在 Ci, 让 点 处 的 值 :， 为 二 值 化 的 目标 掩 码 图 像 在 该 点 处 的 
值 。 在 跟踪 时 ,首先 确定 当前 帧 的 最 佳 搜索 区 域 。 然 后 用 该 区 域 作为 输入 ,用 卷 积 网 络 生成 
概率 图 像 , 接 下 来 计算 每 一 个 点 处 的 得 分 值 ,这 个 值 为 目标 处 于 该 位 置 的 概率 的 近似 ; 


z+w-ly+h—1 


c= >, У) (рр е) wh 


i-r ј=у 


这 个 值 最 大 的 位 置 就 是 目标 所 处 的 位 置 。 在 检测 过 程 中 ,以 要 跟踪 的 目标 作为 正 样本 ， 
随机 采样 的 背景 作为 负 样 本 进行 网 络 的 微调 训练 ,以 适应 目标 外 观 和 尺寸 的 变化 。 
文献 [66] 提 出 了 一 种 用 全 卷 积 网 络 进行 目标 跟踪 的 方法 , 卷 积 网 络 的 作用 是 目标 检测 。 
这 种 方法 用 一 个 在 ImageNet 数据 集 上 预先 训练 好 的 卷 积 网 络 提取 图 像 的 特征 ,用 于 区 分 
目标 和 背景 , 卷 积 网 络 采用 УСС 结构 。 另 外 也 用 卷 积 网 络 的 特征 生成 热度 图 ,表示 每 个 位 
置 处 是 目标 的 概率 。 
假设 某 一 卷 积 层 的 输出 为 d> n 的 图 像 下 ,其 中 为 卷 积 特征 图 像 的 数量 ,d 为 每 张 卷 
积 特征 图 像 转换 成 一 维 向 量 之 后 的 维 数 , 即 图 像 的 宽度 乘 以 高 度 。 接 下 来 将 这 张 图 像 与 
dX1 的 二 值 前 景 掩 码 图 像 x 关联 起 来 ,像素 值 z. = 1 表示 该 位 置 为 目标 ,否则 为 背景 。 通 
过 求解 下 面 的 最 优化 问题 得 到 前 景 掩 码 图 像 : 
min, || z — Fe ||} +A lle lla 
с2 0 
其 中 ,e Jg S f Bu О п 维系 数 向 量 ;4 YJ ЛИР ИШ АСЕ. FEIE 3649188 
像 之 后 就 可 以 确定 目标 的 位 置 。 更 多 的 目标 跟踪 算法 可 以 阅读 文献 [65] 和 文献 [68-70]。 





15.9 ”应 用 一 一 计算 机 图 形 学 


计算 机 图 形 学 是 计算 机 科学 的 一 个 重要 分 支 , 它 的 任务 是 用 计算 机 程序 生成 图 像 , 尤 其 
是 真实 感 图 像 。 图 形 学 中 有 3 个 基本 的 问题 : 几何 模型 的 建立 (如 物体 表面 的 曲面 )、 物 理 
模型 的 建立 (包括 光照 模 以 及 运动 物体 的 力学 模型 ) 浑 染 ( 即 由 几何 和 物理 模型 生成 最 终 的 
图 像 )。 

机 器 学 习 技术 在 图 形 学 中 的 应 用 代表 了 数据 驱动 这 类 方法 , 它 通 过 大 量 的 训练 样本 得 
到 要 建立 的 模型 的 参数 ,或 者 直接 由 训练 的 模型 生成 图 像 等 数据 。 卷 积 网 络 适 合 处 理 图 像 、 
二 维 或 者 三 维 空间 中 的 网 格 数据 这 些 具有 空间 结构 的 数据 ,在 图 形 学 的 很 多 问题 上 也 取得 
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了 很 好 的 效果 。 
15.9.1 几何 模型 


文献 L[71] 提 出 一 种 用 基于 八 又 树 的 卷 积 网 络 进行 三 维 形状 分 析 的 方法 , 称 为 O-CNN。 
在 这 里 用 八 又 树 表示 三 维 物 体 ,将 八 又 树 最 精细 叶子 节点 的 法 向 量 均值 作为 卷 积 网 络 的 输 
入 ,执行 三 维 卷 积 运 算 。 这 种 卷 积 网 络 能 用 于 对 三 维 形 状 进 行 分 类 、 检 索 和 分 割 。 

八 叉 树 是 图 形 学 中 用 于 表示 三 维 空间 物体 形状 的 一 种 方法 . 它 将 三 维 空间 递归 地 分 割 
成 8 个 部 分 ,对 应 于 三 维 坐标 轴 的 3 个 方向 。 与 二 维 图 像 分 析 类 似 , 三 维 形状 分 析 的 关键 是 
抽取 出 三 维 形状 的 特征 。 

算法 的 第 一 步 是 创建 八 又 树 , 这 和 标准 八 义 树 有 所 不 同 。 首 先 将 三 维 形状 在 3 个 坐标 
轴 方 向 缩放 到 单位 立方 体内 , 即 m yz 坐标 都 位 于 区 间 [0,3] 内 。 然 后 按照 宽度 优先 的 顺 
序 对 三 维 形状 的 包围 立方 体 递 归 地 进行 细 分 。 在 每 一 步 中 ,遍历 当前 深度 ! 中 被 三 维 形状 
的 边界 所 占据 的 非 空 八 分 体 (Octant) ,将 它们 细 分 成 8 个 深度 为 ! 十 1 的 子 八 分 体 。 重 复 这 
个 过 程 , 直 到 八 又 树 的 深度 达到 指定 深度 。 

八 又 树 建立 之 后 ,下 一 步 就 是 生成 用 于 卷 积 网 络 的 特征 数据 。 在 这 里 ,为 每 个 八 又 树 节 
点 计算 洗 牌 码 (Shuffle Key) 和 标签 值 。 同 时 ,还 要 根据 存储 在 八 又 树 最 精细 的 叶子 节点 中 
的 三 维 形状 计算 出 卷 积 网 络 的 输入 数据 ,并 把 卷 积 网 络 的 输出 结果 存储 在 八 又 树 节 点 中 。 
对 于 八 又 树 的 每 一 层 节点 ,按照 其 洗 牌 码 升序 排序 ,然后 将 它们 的 特征 打包 成 一 个 特征 向 
量 。 所 有 的 特征 向 量 共享 索引 值 , 向 量 的 长 度 和 当前 深度 的 节点 数 相同 。 
为 了 在 下 采样 时 快速 找到 一 个 八 叉 树 节点 的 父 节点 ,为 深度 为 1 的 节点 赋予 标签 值 。 
对 于 非 空 节点 , 它 表示 本 节点 在 排序 之 后 的 洗 牌 码 数 组 中 的 位 置 ;对 于 空 节点 ,其 值 为 0。 
所 有 深度 为 / 的 节点 的 标签 值 存储 在 标签 向 量 L, 中 。 按 照 上 面 的 编码 规则 ,对 于 深度 为 / 
的 第 i 个 节点 ,其 深度 为 /十 1 的 第 一 个 护 子 节点 的 编号 为 

k=8X (Li [i] —1) 

卷 积 网 络 的 输入 数据 为 最 精细 一 层 节点 中 所 有 法 向 量 的 均值 。 对 于 空 节点 其 值 为 0; 
对 于 非 空 节点 ,对 艇 人 到 这 个 节点 中 的 三 维 形 状 的 表面 进行 采样 ,得 到 一 些 采 样 点 ,然后 计 
算 这 些 采样 点 处 的 法 向 量 的 均值 作为 本 节点 在 卷 积 网 络 中 的 输入 值 。 在 这 里 将 所 有 叶子 节 
点 对 卷 积 网 络 的 输入 值 存储 在 一 个 输入 向 量 中 ,这 个 向 量 的 长 度 等 于 八 又 树 最 精细 的 一 层 
叶子 节点 的 节点 数 。 

对 于 深度 为 / 的 每 个 三 维 卷 积 核 ,将 这 个 深度 的 所 有 节点 的 卷 积 结果 记录 在 特征 映射 
向 量 Ti 中 。 三 维 卷 积 计算 公式 为 

20 = >) >) >) У) WR - T” (Op) 

其 中 ,Oi 表示 节点 O 的 一 个 邻居 节点 ;T”(。) 表 示 特 征 向 量 的 第 n ril | Wp H SUBE 
的 权重 。 在 实现 时 这 种 卷 积 运算 也 可 以 转化 为 矩阵 乘法 来 实现 。 卷 积 网 络 交替 地 使 用 卷 积 
和 池 化 操作 ,作用 于 八 叉 树 的 每 一 层 ,激活 函数 采用 ReLU 函数 。 

在 进行 物体 分 类 时 采用 的 网 络 为 

O-CNN(d) — Dropout > FC(128) — Dropout — FC(k) — softmax — output 
对 于 三 维 形状 检索 任务 ,使 用 了 与 分 类 任务 相同 的 网 络 结构 ,对 提取 的 特征 向 量 计算 相 








А 
=a 
第 15 章 卷 积 神经 网 络 1439 


似 度 ,然后 进行 检索 。 对 于 三 维 形状 分 割 任务 ,采用 了 全 卷 积 网 络 结构 
O-CNN(d) > DU, > DU; > … — DU; 
其 中 ,DU; 为 反 卷 积 层 , 与 二 维 全 卷 积 网 络 类 似 , 通 过 转 置 卷 积 来 实现 。 


15.9.2 ”物理 模型 


在 图 形 学 中 ,物理 模型 包括 对 要 绘制 的 物体 进行 力学 和 光学 建 模 。 前 者 主要 针对 运动 
的 或 变形 的 物体 ,包括 刚体 和 流体 。 对 所 有 要 泻 染 的 物体 ,都 需要 建立 光学 模型 ,包括 物体 
表面 材质 的 光学 特征 ,以 及 光照 模型 。 

文献 [73] 提 出 了 一 种 使 用 单 张 图 片 估计 物体 表面 反射 函数 的 方法 ,该 算法 用 卷 积 网 络 
表示 表面 反射 函数 。 表 面 反 射 函 数 定义 了 物体 表面 的 光学 反射 特性 , 它 决 定 了 给 定 光照 条 
件 下 物体 表面 的 颜色 和 纹理 ,这 对 绘制 物体 至 关 重 要 。 

用 机 器 学 习 的 方法 拟 合 表面 反射 函数 最 大 的 困难 在 于 缺乏 训练 样本 。 在 这 里 训练 样本 
是 一 张 图 像 和 它 对 应 的 表面 反射 函数 。 表 面 反 射 函 数 的 获取 成 本 高 ,需要 专用 的 采集 设备 
和 长 时 间 地 采集 。 为 了 解决 这 个 问题 ,作者 提出 了 一 种 自 增强 神经 网 络 的 训练 方法 ,把 真实 
感 泻 染 的 逆 映 射 引入 到 训练 流程 中 ,使 用 大 量 无 标注 数据 , 即 平面 纹理 材质 的 图 像 ,结合 少 
量 的 标注 数据 一 起 对 网 络 进行 训练 .得 到 与 人 工 标注 结果 相近 的 预测 结果 。 

流体 模拟 是 图 形 学 中 一 个 重要 的 问题 , 它 对 液体 .气体 (如 烟雾 ) 等 物体 的 运动 进行 建 模 
和 绘制 。 在 仿真 ,游戏 与 动画 .电影 特技 里 都 有 这 种 技术 的 应 用 。 经 典 的 方法 是 基于 物理 的 
流体 模拟 。 它 主要 由 两 步 构成 : 对 流体 的 运动 进行 建 模 ,以 及 对 流体 的 表面 进行 绘制 ,前 者 
的 基础 是 流体 力学 。 在 流体 力学 领域 ,描述 流体 运动 使 用 的 是 Navier-Stokes 方程 ,这 是 一 
个 复杂 的 偏 微分 方程 组 ,一 般 情况 下 无 法 求 得 精确 解 。 用 离散 化 的 数值 方法 计算 需要 求解 
大 规模 的 方程 组 ,非常 耗 时 ,使 得 高 精度 的 流体 模拟 很 难 实时 进行 。 

文献 [78] 提 出 了 一 种 用 卷 积 网 络 加 速 流体 模拟 的 方法 ,这 种 方法 不 再 求解 大 规模 的 线 
性 方程 组 ,而 是 直接 用 卷 积 网 络 进 行 预测 。 这 个 网 络 用 大 量 的 仿真 数据 作为 训练 集 , 采 用 半 
监督 的 方法 进行 训练 ,目标 是 最 小 化 长 期 速度 散 度 。 

如 果 流 体 没有 黏 性 ,去 掉 不 可 压缩 流体 Navier-Stokes 方程 的 黏 性 项 之 后 ,可 以 得 到 如 
下 欧 拉 方程 
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其 中 ,u 为 速度 ,是 矢量 场 ;t 是 时 间 ;p 为 压强 ,是 一 个 标量 场 ;o 为 流体 的 密度 ,是 一 个 标量 ; 
了 是 作用 于 流体 的 外 力 ,是 一 个 矢量 场 。 在 图 形 学 中 经 常 使 用 这 个 方程 组 来 对 水 ,烟雾 等 流 
体 进 行 建 模 。 求 解 时 采用 数值 方法 进行 离散 化 .使 用 网 格 化 进行 计算 ,用 中 心 差分 公式 近似 
偏 导数 。 在 这 里 ,关键 的 一 步 是 求解 如 下 形式 的 线性 方程 组 : 

Ар, = b 








u • Vu l ç +f 
p 





然后 更 新 速度 的 值 ; 
и, = usa — Мр, 
其 中 ,uw 为 + 时 刻 的 速度 ;At 为 时 间 步 长 。 在 这 里 卷 积 网 络 所 起 的 作用 是 直接 预测 出 决定 
下 一 个 时 刻 速度 值 и, 的 压强 值 p, ,而 无 须 再 求解 上 面 的 方程 组 。 网 络 的 输入 是 上 一 个 时 刻 
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的 速度 场 . 压 强 场 ,以 及 几何 模型 数据 ;网 络 的 输出 值 是 下 一 个 时 刻 的 压强 场 。 

卷 积 网 络 的 输入 数据 为 张 量 ,包括 6 个 卷 积 层 , 网 络 的 最 后 是 一 个 上 采样 卷 积 层 , 最 后 
的 输出 是 压强 值 。 训 练 时 的 目标 是 最 小 化 预测 值 与 真实 值 之 间 的 欧 氏 距离 ,损失 函数 定 
XH 

L =å, l p—p ll? +A, 1а — à 12 Haa H V ü 1° 

其 中 , 和 为 真实 的 压强 和 速度 场 ;p, 是 网 络 预测 出 的 压强 值 ;i 是 用 预测 出 的 压强 值 
更 新 后 的 速度 场 ;? 是 人 工 设 定 的 参数 ,用 于 控制 3 个 项 的 重要 性 。 

文献 [72] 提 出 了 一 种 用 卷 积 网 络 进行 烟雾 合成 的 方法 ,其 关键 是 用 卷 积 网 络 建立 烟雾 
运动 的 力学 模型 。 在 这 里 采用 了 一 个 有 4 个 卷 积 层 和 2 个 全 连接 层 的 卷 积 网 络 。 卷 积 网 络 
的 作用 是 学 习 描 述 粗 糙 尺 度 烟 雾 模 拟 局 部 和 精细 尺度 烟雾 模拟 局 部 对 应 关系 的 映射 。 在 新 
场景 中 生成 精细 的 烟雾 特效 时 ,只 需 进 行 快速 的 粗糙 模拟 ,并 根据 卷 积 网 络 建立 的 映射 得 到 
与 各 局 部 相对 应 的 精细 模拟 局 部 ,然后 将 其 细节 形体 信息 转移 过 来 即 可 。 

基于 图 像 的 泻 染 是 图 形 学 中 的 一 种 技术 , 它 直接 由 图 像 生成 图 像 ,而 无 须 先 建立 几何 和 
物理 模型 。 光 照发 生变 化 时 将 当期 图 像 泻 染 为 光照 变化 后 的 图 片 是 一 个 常见 的 需求 。 文 
献 L[79] 提 出 一 种 用 多 层 神 经 网 络 进行 重光 照 的 方法 。 在 这 里 将 重光 照 表 示 为 对 场景 的 光 
线 传输 和 矩阵 和 新 的 光照 向 量 的 乘法 。 光 线 传输 矩阵 从 输入 图 像 中 重 构 得 到 ,神经 网 络 被 用 
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纹理 合成 是 泻 染 时 重要 的 一 步 , 它 从 小 的 纹理 样 图 生成 大 的 纹理 图 像 ,然后 映射 到 物体 
表面 的 曲面 上 ,要 保证 生成 的 图 像 没 有 缝隙 。 和 风格 迁移 一 样 ,这 也 是 一 个 从 图 像 生成 图 像 
的 问题 。 卷 积 神经 网 络 的 卷 积 输出 值 蕴 含 了 图 像 的 信息 ,因此 ,可 以 根据 它 来 计算 纹理 特 
iE ,用 来 衡量 样 例 图 像 和 生成 图 像 的 相似 度 。 
文献 [75] 提 出 了 一 种 用 卷 积 网 络 合 成 纹理 的 方案 ,其 思想 和 前 面 介绍 的 风格 迁移 类 似 。 
这 个 方法 分 为 两 步 。 第 一 步 是 纹理 分 析 , 它 的 输入 是 纹理 样 图 , 送 入 卷 积 网 络 处 理 之 后 ,在 
各 个 卷 积 层 的 输出 特征 图 像 上 计算 Gram 和 矩阵。 第 二 步 是 纹理 合成 , 它 的 输入 是 一 张 白 噪 
声 图 像 , 送 入 卷 积 网 络 进行 处 理 ,用 纹理 模型 在 卷 积 网 络 的 各 个 层 上 计算 损失 函数 。 然 后 用 
梯度 下 降 法 迭代 更 新 这 张 白 噪声 图 像 , 使 得 损失 函数 最 小 化 。 对 白 噪 声 图 像 的 优化 结果 就 
是 合成 得 到 的 纹理 图 像 , 它 与 纹理 样 例 图 像 具 有 相同 的 Gram 矩阵。 
假设 第 1 层 有 М, 个 卷 积 滤波 器 ,产生 N, 个 输出 特征 图 像 , 每 个 特征 图 像 被 转化 成 M, 
维 的 向 量 。 这 些 特征 图 像 组 成 一 个 №, X M, 的 矩阵 F'。 其 元 素 Fi 为 第 7 个 滤波 器 在 位 置 
k 处 的 响应 值 。 根 据 这 个 矩阵 可 以 得 到 描述 纹理 特征 的 Gram 矩阵 G' ,这 是 一 个 N, X N, 的 
和 矩阵 ,其 元 素 定义 为 
Gi = JG FAFA 
从 各 个 层 得 到 一 组 Gram 矩阵 
(G .G esi) 
接 下 来 生成 新 的 图 像 ,首先 生成 一 张 白 噪声 图 像 , 把 它 送 入 和 样 例 图 像 相同 的 卷 积 网 络 
中 进行 处 理 , 在 各 个 卷 积 层 计 算得 到 Gram 矩阵 ,然后 迭代 更 新 这 张 噪声 图 像 , 使 得 它 的 
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Gram 矩阵 与 样 例 图 像 的 Gram 和 矩阵 相同 。 假 设 样 例 图 像 为 x, 要 生成 的 图 像 为 x。 它 们 在 
第 1 层 的 Gram 和 矩阵 分 别 为 G' MG. 第 1 层 的 损失 函数 定义 为 


EM г 6Ly 
E, = туу? 2G, GL) 


在 这 里 使 用 了 欧 氏 距离 。 总 损失 函数 为 各 个 层 的 损失 函数 之 和 ,定义 为 


L(x,£) = У) wE, 


1-0 


其 中 ,zw 为 每 一 层 的 损失 权重 系数 。 接 下 来 计算 损失 函数 对 图 像 * 的 梯度 ,然后 用 梯度 下 降 
法 更 新 它 的 像素 值 。 最 后 得 到 的 图 像 就 是 要 生成 的 纹理 图 像 。 

文献 [76] 提 出 了 一 种 用 卷 积 网 络 学 习 纹理 的 特征 ,然后 合成 纹理 的 方法 。 它 们 的 思路 
和 文献 [75] 的 思路 类 似 , 也 是 用 一 个 卷 积 网 络 提取 出 图 像 在 各 个 层 的 纹理 特征 ,用 同样 的 网 
络 对 一 张 白 噪声 图 像 进行 处 理 , 提 取出 相同 的 纹理 特征 。 然 后 用 梯度 下 降 法 更 新 噪声 图 像 ， 
目标 是 使 得 二 者 的 纹理 特征 相同 。 在 这 里 ,他 们 没有 使 用 Gram 矩阵 描述 纹理 特征 ,而 是 使 
用 了 结构 化 能 量 , 它 基于 输出 图 像 的 相关 系数 , 捕 提 纹理 的 自 相 似 性 和 规则 人 性。 


15.9.4 图 像 彩 色 化 


图 像 彩色 化 的 目标 是 给 定 一 张 黑白 图 像 ,在 少量 的 用 户 交 互 作用 下 生成 对 应 的 彩色 图 
像 。 在 这 里 的 用 户 交互 一 般 是 让 用 户 在 黑白 图 像 的 某 些 位 置 设置 颜色 。 文 献 [80] 提 出 一 种 
使 用 卷 积 网 络 将 黑白 图 像 彩色 化 的 方法 。 卷 积 网 络 的 输入 是 灰 度 图 像 以 及 少量 的 用 户 提示 
信息 ,输出 数据 是 彩色 图 像 。 其 目标 是 根据 灰 度 图 像 的 结构 信息 以 及 用 户 在 几 个 典型 位 置 
的 输入 颜色 ,预测 出 每 个 像素 的 颜色 值 。 系 统 由 两 个 网 络 构成 : 第 一 个 为 局 部 提示 网 络 , 它 
接收 稀 琉 的 用 户 输入 ;第 二 个 网 络 是 全 局 提示 网 络 , 它 使 用 图 像 的 全 局 统计 信息 。 
系统 的 输入 为 H> W х1 的 灰 度 图 像 X, 以 及 用 户 指 定 的 颜色 信息 提示 U。 灰 度 图 像 
是 CIE 颜色 空间 中 的 亮度 分 量 L。 系 统 的 输出 是 H> W x 2 的 图 像 立 。 输出 图 像 的 两 个 通 
道 分 别 为 ab 颜色 通道 。 卷 积 网 络 建立 了 上 面 输入 到 输出 的 映射 下 ,要 确定 的 参数 为 0。 
假设 训练 样本 集 为 D. Hh IKE BE (X .用户 输入 U、 对 应 的 彩色 图 像 了 组 成 。 训 练 时 
优化 的 目标 为 
0* = arg mineExwy~p [L (F (X.U.0).Y)] 
这 里 训练 了 两 个 卷 积 网 络 ,分 别 使 用 了 局 部 用 户 提示 U, 以 及 全 局 用 户 提示 Us。 训 练 
时 ,通过 给 神经 网 络 一 个 峰值 或 者 真实 颜色 Y 的 投影 值 来 生成 用 户 提示 。 真 实 颜色 的 投影 
值 按照 下 面 的 公式 计算 : 
U, = р(Ү) 
U, = р, (Y) 
局 部 提示 网 络 和 全 局 提示 网 络 的 优化 目标 为 
Өг = arg mine, Exy~p [L (Fi (X.U,.0.).Y)] 
0; — arg ming Ex.y~p [L (F, (X.U,.0,).Y)] 
损失 函数 定义 为 
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其 中 ,6 是 用 户 指定 的 参数 ,在 实现 时 其 值 为 1。 接 下 来 介绍 局 部 提示 网 络 和 全 局 提示 网 络 
的 实现 细节 。 

用 户 指定 的 颜色 点 被 参数 化 为 H x W х2 的 张 量 X ,在 用 户 指定 的 那些 点 处 具有 颜色 
fË аб.Вь&—1 H xW х1 的 二 值 掩 码 张 量 ,表示 哪些 点 处 用 户 指 定 了 颜色 值 。 掩 码 张 量 
将 用 户 指 定 了 颜色 的 点 和 没 指 定 颜色 的 点 区 分 开 来 ,用户 没有 指定 颜色 的 点 处 的 颜色 值 为 
(a,b) 二 0。 将 这 两 个 张 量 合 并 起 来 得 到 HW х3 的 张 量 : 

О = {Xa Ba} € КЗ 

这 里 有 一 个 问题 ,给 定 的 训练 样本 是 灰 度 图 像 和 其 对 应 的 彩色 图 像 。 可 以 通过 将 彩色 
图 像 灰 度 化 得 到 灰 度 图 。 但 算法 要 求 的 输入 是 灰 度 图 像 , 以 及 用 户 输入 的 颜色 提示 信息 , 因 
此 需要 根据 灰 度 图 像 、 对 应 的 彩色 图 像 生成 模拟 的 用 户 输入 颜色 信息 。 作 者 采用 随机 采样 
的 手段 来 生成 模拟 的 用 户 输入 。 从 彩色 图 像 中 随机 抽取 出 一 些小 区 域 ,然后 计算 区 域内 的 
平均 颜色 值 。 对 每 张 图 像 ,随机 采样 区 域 的 个 数 服 从 几何 分 布 。 然 后 用 二 维 正 态 分 布 随机 
生成 这 些 随机 采样 区 域 中 心 点 的 坐标 。 

用 户 点 击 图 像 中 心 区域 的 概率 更 大 。 通 过 生成 这 些 随机 的 点 ,模拟 了 用 户 点 击 这 些 点 
指定 颜色 的 过 程 。 另 外 ,还 需要 指定 随机 采样 的 区 域 大 小 ,在 这 里 采样 区 域 为 矩形 ,大 小 服 
从 1 一 9 的 均匀 分 布 。 然 后 ,计算 各 个 随机 采样 区 域内 的 ab 颜色 均值 ,作为 用 户 输入 数据 ， 
给 神经 网 络 训练 使 用 。 

在 预测 时 ,选择 合适 的 颜色 对 图 像 彩 色 化 至 关 重 要 ,如 果 不 给 提示 信息 ,让 用 户 完全 自 
己 指定 一 个 颜色 对 用 户 来 说 有 些 困难 。 在 这 里 ,使 用 了 数据 驱动 的 调 色 板 技 术 。 对 于 每 个 
像素 ,预测 其 为 某 种 颜色 的 概率 分 布 ,这 样 得 到 一 个 HxXW хо 的 张 量 多 。 其 中 Q 为 量化 的 
颜色 数 。 在 这 里 使 用 了 对 CIE lab 颜色 空间 的 参数 化 ,ap 分 量 空间 被 划分 成 10X 10 的 段 。 
用 于 从 灰 度 图 像 、 用 户 输入 的 点 生成 预测 的 颜色 分 布 多 的 映射 由 神经 网 络 g, 训练 得 到 , 然 
后 通过 y 进行 参数 化 。 真 实 的 输出 值 Z 通 过 对 真实 彩色 图 像 Y 进行 软 编码 得 到 。 训 练 时 
f FH ZE 0 193 De РА СЖ EE ht B NM] P3 ба, (LA t SB ба, [8 227 а] AS: 
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其 中 : 
dí = arg min, E x.y- p[ La Gi GGU, 40.2] 

全 局 网 络 使 用 全 局 颜色 信息 ,包括 整个 图 像 的 颜色 直方 图 Xs. € A? ,图像 饱和 度 的 均值 
XsE[0,1]。 这 些 全 局 信息 是 否 被 支持 由 两 个 指示 变量 来 表示 B... Bow ЄВ. 3X TEJH AY 
全 局 输入 为 

U, = (Xi Bis Xa Ba} € RUM COS? 

计算 全 局 直方 图 时 , 先 将 图 像 Y 缩放 到 1/4 ,然后 对 每 个 像素 的 ab 值 进行 量化 编码 , 然 
后 进行 空间 上 的 平均 得 到 。 饱 和 度 通过 将 图 像 转换 到 HSV 颜色 空间 ,然后 对 S 通道 进行 
空间 上 的 平均 得 到 。 


15.9.5 HDR 
高 度 动态 范围 (High Dynamic Range: HDR) 确 保 在 极端 光照 条 件 下 图 像 的 高 光 和 弱 光 
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区 域 都 很 清晰 。 普 通 照 相机 因为 传感器 量化 范围 的 限制 ,产生 的 图 像 会 有 欠 曝 光 或 者 过 曝 
光 区 域 ,HDR 是 解决 这 个 问题 的 一 种 方法 。 
产生 HDR 图 像 的 做 法 一 般 是 用 相机 拍摄 多 张 有 不 同 曝光 度 的 低 动 态 范围 (Low 
Dynamic Range,LDR) 的 图 像 .然后 合并 成 一 张 高 动态 范围 的 图 像 。 生 成 HDR 图 像 需要 解 
决 两 个 问题 : 要 将 多 张 LDR 图 像 对 齐 ; @ 将 这 些 图 像 进 行 合 并 ,生成 HDR 图 像 。 第 一 
个 问题 可 以 用 光 流 法 等 手段 解决 .但 会 留 下 人 工 痕迹 。 

文献 [74] 提 出 一 种 用 机 器 学 习 的 手段 进行 HDR 图 像 合成 的 方法 。 这 种 方法 能 够 根据 
3 张 不 同 曝光 的 LDR 图 像 生成 HDR 图 像 。 首 先 用 光 流 法 将 高 曝光 与 低 曝光 图 像 与 中 度 曝 
光 图 像 对 齐 ,中 度 曝 光 图 像 为 参考 图 像 。 最 后 生成 的 HDR 图 像 与 参考 图 像 对 齐 ,但 包含 另 
外 两 张 图 像 ( 即 高 曝光 与 低 曝 光 图 像 ) 的 信息 。 然 后 将 З 张 对 齐 的 图 像 送 入 卷 积 网 络 中 预 
ill ,生成 HDR 图 像 。 

算法 的 输入 是 3 张 LDR 0 (Z, .Z,.Z,) ,输出 是 HDR 图 像 H. ESBS AG Z, 对 
齐 。 整 个 过 程 分 为 两 个 阶段 ,首先 将 低 曝光 图 像 Z, 与 高 曝光 图 像 Z, 分 别 与 参考 图 像 Z 对 
齐 , 得 到 3 张 对 齐 后 的 图 像 (LoL. 1; ) ,其 中 L. =Z,, UAE 3 张 对 齐 后 的 图 像 进行 合并 ， 
生成 HDR 图 像 H。 由 于 光 流 法 对 齐 图 像 时 会 产生 人 工 痕迹 ,因此 , 卷 积 网 络 在 进行 图 像 合 
并 时 要 消除 这 种 痕迹 。 

卷 积 网 络 的 训练 样本 为 对 齐 后 的 图 像 与 真实 HDR AR. HR PR RE Ж EXT ЖЕЛИМ] 
预测 的 图 像 进行 色调 映射 之 后 形成 的 HDR 图 像 与 真实 HDR 图 像 之 间 。 色 调 映 射 采用 了 
下 面 的 函数 : 





T= In(1+g#H) 
In(1 + y) 


其 中 ,是 人 工 设 定 的 参数 ;H 是 HDR 图 像 ;T 是 色调 映射 后 的 图 像 , 其 元 素 的 值 为 0 一 1。 
损失 函数 定义 为 
E = У), т) 
在 这 里 全 是 算法 预测 出 来 的 HDR 图 像 ,经 过 了 色调 映射 ;T 是 真实 的 НОК 图 像 。 对 
于 彩色 图 像 ,损失 函数 对 RGB 3 个 颜色 通道 求 和 。 
HDR 合并 的 过 程 可 以 形式 化 地 写成 如 下 映射 : 
H' = e(I.H) 
其 中 ,g 是 映射 函数 ,通过 卷 积 网 络 训练 得 到 ;H 是 HDR 对 齐 后 的 图 像 集合 ,包括 图 像 Hs. 
H: ‚Н; ;I 是 LDR 对 齐 的 图 像 集合 ,包括 图 像 h d. Н, 通过 1; 计算 得 到 ,计算 公式 为 
H, = I'/t, 
其 中 ,ti; 为 第 i 张 图 像 的 曝光 时 间 ;y 为 人 工 设 定 的 参数 。 
卷 积 网 络 有 3 种 实现 结构 。 第 一 种 结构 只 用 一 个 卷 积 网 络 来 对 整个 过 程 建 模 。 第 二 种 
结构 的 卷 积 网 络 只 负责 预测 HDR 合并 时 的 混合 权重 。 第 三 种 结构 除了 估计 混合 权重 之 
外 ,还 输出 细 化 之 后 的 对 齐 LDR 图 像 。 
第 一 种 结构 只 使 用 一 个 卷 积 网 络 ,直接 估计 HDR 图 像 。 卷 积 网 络 输出 图 像 豆 , 然 后 对 
它 进 行 色调 映射 ,得 到 最 终 的 HDR 图 像 。 网 络 训练 时 的 优化 目标 是 让 预测 的 图 像 H 和 真 
实 的 HDR 图 像 在 经 过 色调 映射 之 后 的 误差 最 小 化 。 
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第 二 种 结构 通过 计算 LDR 图 像 的 加 权 平 均 来 得 到 HDR 图 像 ,计算 公式 为 
Da (рН, р) 


Нор) = = 
Mao» 
j=1 


其 中 : 
H,(p) = Ij/t; 

在 这 里 a; Cp) J& j 张 对 齐 的 LDR 图 像 对 像素 p 的 融合 权重 ,此 权重 通过 卷 积 网 络 训 
练 得 到 。 这 种 结构 的 卷 积 网 络 的 输入 为 {1, 开 ) ,输入 为 权重 图 像 a。 在 学 习 得 到 权重 图 像 
之 后 ,根据 它 对 LDR 图 像 进行 加 权 , 得 到 HDR 图 像 。 第 二 种 结构 的 卷 积 网 络 结构 与 第 一 
种 结构 的 相同 。 

第 三 种 结构 的 网 络 输出 为 混合 权重 以 及 细 化 的 LDR РИ (а, Г) ,再 根据 细 化 的 LDR 图 
像 以 及 混合 权重 进行 加 权 平 均 计 算得 到 HDR 图 像 。 


15.10 ”应 用 一 一 自然 语言 处 理 


自然 语言 处 理 领 域 大 多 数 的 问题 都 是 时 间 序 列 问 题 ,这 是 循环 神经 网 络 擅长 处 理 的 问 
题 , 在 第 16 章 中 将 详细 介绍 。 对 于 有 些 问题 ,使 用 卷 积 网 络 也 能 进行 建 模 并 且 得 到 了 很 好 
的 结果 ,在 这 里 简单 介绍 文本 分 类 中 中 和 机 器 翻译 3 。 


15.10.1 文本 分 类 


文献 [81J 设 计 了 一 种 用 卷 积 网 络 进行 句子 分 类 的 方案 。 这 个 方法 的 结构 很 简单 ,使 用 
不 同 尺 才 的 卷 积 核对 文本 矩阵 进行 卷 积 , 卷 积 核 的 宽度 等 于 词 向 量 的 长 度 , 然 后 使 用 最 大 池 
化 。 对 每 一 个 卷 积 核 提取 的 向 量 进行 操作 ,最 后 每 一 个 卷 积 核对 应 一 个 数据 ,把 这 些 数 据 拼 
接 起 来 ,得 到 一 个 表征 该 句子 的 向 量 , 最 后 的 预测 都 基于 该 句子 。 

卷 积 网 络 的 输入 是 一 个 由 句子 构成 的 二 维和 矩阵 ,矩阵 的 每 一 行为 一 个 词 的 向 量 编码 ,如 
果 词 典 的 大 小 为 k, 则 这 个 向 量 的 长 度 为 &。 如 果 句 子 有 个 词 , 则 输入 图 像 为 nXk, 如 果 
句子 的 词 个 数 不 为 ,需要 进行 填 0 操作 。 


15.10.2 机 器 翻译 


文献 [85] 提 出 了 一 种 用 卷 积 网 络 进行 机 器 翻译 的 方法 。 这 种 方法 使 用 卷 积 网 络 实现 了 
序列 到 序列 的 学 习 , 而 之 前 的 经 典 做 法 是 用 循环 神经 网 络 构 建 序列 到 序列 的 学 习 框 架 。 在 
一 些 标准 数据 集 上 ,这 种 方法 的 精度 超越 了 循环 神经 网 络 翻译 系统 。 在 第 16 章 中 将 详细 介 
绍 机 器 翻译 问题 。 
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第 16 2 
循环 神经 网 络 


全 连接 神经 网 络 和 卷 积 神经 网 络 在 运行 时 每 次 处 理 的 都 是 独立 的 输入 数据 ,没有 记忆 
功能 。 有 些 应 用 需要 神经 网 络 具有 记忆 能 力 ,典型 的 是 输入 数据 为 时 间 序 列 的 问题 ,时 间 序 
列 可 以 抽象 地 表示 为 一 个 向 量 序列 : 

Xi sX2 > """ X, 
其 中 ,x; 是 向 量 , 下 标 i 为 时 刻 。 各 个 时 刻 的 向 量 之 间 存 在 相关 ,x, 与 比 它 更 早 时 刻 的 向 量 
有 关 。 例 如 ,在 说 话 时 当前 要 说 的 词 和 之 前 已 经 说 出 去 的 词 之 间 存 在 关系 ,依赖 于 上 下 文 语 
境 。 算 法 需要 根据 输入 序列 来 产生 输出 值 。 这 类 问题 称 为 序列 预测 问题 ,需要 注意 的 是 输 
入 序列 的 长 度 可 能 不 固定 。 

语音 识别 和 自然 语言 处 理 是 序列 预测 问题 的 典型 代表 。 前 者 的 输入 是 一 个 语音 信号 序 
列 ; 后 者 是 文字 序列 。 下 面 用 一 个 实际 例子 来 说 明 序列 预测 问题 。 假 设 神经 网 络 要 用 来 完 
成 汉语 填空 ,考虑 下 面 这 个 句子 : 

现在 已 经 下 午 2 点 了 ,我 们 还 没有 吃饭 ,非常 饿 ,赶快 去 餐馆 ° 

最 佳 答案 是 “吃饭 ”, 这 个 答案 需要 根据 上 下 文理 解 得 到 。 首 先 ,根据 前 面 的 “我 们 还 没 
有 吃饭 ,非常 饿 ?可 以 推断 是 饿 了 还 没有 吃饭 ;去 餐馆 ,可 以 是 鞭 一 会 儿 , 或 者 是 喝 水 ,也 可 以 
是 吃饭 ;但 结合 前 面 的 饿 了 ,最 佳 答案 显然 是 “吃饭 ”, 为 了 完成 这 个 预测 ,神经 网 络 需 要 依次 
输入 前 面 的 每 一 个 词 ,最 后 输入 “餐馆 ”这 个 词 时 ,得 到 预测 结果 。 

神经 网 络 每 次 的 输入 为 一 个 词 (实际 上 是 对 这 个 词 进 行 编码 后 的 向 量 ) ,最 后 要 填 出 这 
个 空 ,这 需要 网 络 能 够 理解 语义 ,并 记 住 之 前 输入 的 信息 , 即 语句 上 下 文 。 这 里 神经 网 络 要 
根据 之 前 的 输入 词 序列 计算 出 当前 使 用 哪个 词 的 概率 最 大 。 如 何 设计 一 个 神经 网 络 满足 上 
面 的 要 求 ? 答案 就 是 本 章 接 下 来 要 介绍 的 循环 神经 网 络 。 


16.1 网 络 结构 

循环 神经 网 络 由 输入 层 ,循环 层 和 输出 层 构 成 ,可 能 还 包括 全 连接 神经 网 络 中 的 全 连接 
层 。 输 入 层 和 输出 层 与 前 馈 型 神经 网 络 类 似 , 唯 一 不 同 的 是 循环 层 ,下 面 重点 介绍 。 
16.1.1 AB 
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该 值 用 于 当前 时 刻 输 出 值 的 生成 。 循 环 神经 网 络 的 输入 为 前 面 介 绍 的 向 量 序列 ,每 个 时 刻 
接收 一 个 输入 oc, ,网 络 会 产生 一 个 输出 ye :而 这 个 输出 是 由 之 前 时 刻 的 输入 序列 共同 决定 
的 。 假 设 :时刻 的 状态 值 为 请 , 它 由 上 一 时 刻 的 状态 值 六 -: 以 及 当前 时 刻 的 输入 值 x, 共同 
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这 是 一 个 递 推 的 定义 ,现在 的 问题 是 如 何 确定 这 个 递 推 公式 。 假 设 t+ 时 刻 循环 层 的 输 
入 向 量 为 x ,输出 向 量 为 有 ,上 一 时 刻 的 输出 值 为 有 1,f 为 激活 函数 , 则 隐 含 层 输出 的 状态 
值 的 计算 公式 为 

h, = РОМ, х, 十 WAR + b) 
其 中 ,Ws 为 输入 层 到 隐 含 层 的 权重 矩阵 ;Ww 为 隐 含 层 内 的 权重 矩阵 ,可 以 看 作 状 态 转移 权 
重 沁 为 偏 置 向 量 。 从 上 面 的 计算 公式 可 以 看 出 ,循环 层 任意 一 个 神经 元 的 当前 时 刻 状态 值 
与 该 循环 层 所 有 神经 元 在 上 一 时 刻 的 状态 值 .当前 时 刻 输入 向 量 的 任何 一 个 分 量 都 有 关系 。 
与 前 馈 型 神经 网 络 相 比 ,这 里 多 了 一 个 项 Wish,_1, 它 意味 着 使 用 了 隐 含 导 上 次 的 输出 值 。 
一 般 选 用 tanh 作为 激活 函数 ,这 样 隐 含 层 的 变换 为 
h, = tanh(W,,x, Winh + b) 

使 用 激活 函数 的 原因 和 其 他 类 型 的 神经 网 络 相同 ,是 为 了 保证 神经 网 络 的 映射 函数 是 
非 线性 的 。 下 面 用 示意 图 来 表示 隐 含 层 的 映射 ,如 图 16.1 " 

所 示 。 

在 这 里 hh_1 和 x, 共同 决定 有 .hh, 体现 了 记忆 功能 ,而 它 二 
的 值 又 是 由 及 -和 x 决定 的 。 依 次 展开 之 后 ,h, 的 值 实际 上 
J& ili x oxy see ,x 决定 的 , 它 记 住 了 之 前 完整 的 序列 信息 。 权 
重 矩阵 Wi 并 不 会 随 着 时 间 变 化 ,在 每 个 时 刻 进行 计算 时 使 用 的 是 同一 个 矩阵 。 这 样 做 的 
好 处 一 方面 是 减少 了 模型 参数 , 另 一 方面 也 记 住 了 之 前 的 信息 。 

如 果 把 每 个 时 刻 的 输入 值 和 输出 值 按照 时 间 线 展开 之 后 面 出 来 ,如 图 16. 2 所 示 。 


h, h, hy hy ha h, 
x x ху x, x 


ха 


h, 








图 16.1 循环 层 的 映射 





16.2 循环 层 的 输出 按照 时 间 轴 展 开 


16.1.2 输出 层 


输出 层 以 循环 层 的 输出 值 作为 输入 并 产生 循环 神经 网 络 最 终 的 输出 , 它 不 具有 记忆 功 
能 。 输 出 层 实现 的 变换 为 
y, = g (Woh, +b.) 
其 中 ,W。 为 权重 矩阵 ;b。 为 偏 置 向 量 ;g 为 变换 函数 。 变 换 函 数 的 类 型 根据 任务 而 定 , 对 于 
分 类 任务 一 般 选 用 softmax 函数 ,输出 各 个 类 的 概率 。 在 这 里 只 使 用 了 一 个 循环 层 , 实 际 使 
用 时 可 以 有 多 个 循环 层 ,在 后 面 会 详细 介绍 。 
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16.1.3 一 个 简单 的 例子 


下 面 来 看 一 个 简单 的 循环 神经 网 络 ,这 个 网 络 有 一 个 输入 层 、 一 个 循环 层 和 一 个 输出 
层 ,一 个 简单 的 循环 神经 网 络 的 结构 如 图 16. 3 所 示 。 


图 16.3 一 个 简单 的 循环 神经 网 络 


网 络 的 输入 层 有 2 个 神经 元 ,循环 层 有 3 个 神经 元 ,输出 层 有 2 个 神经 元 。 假 设 输入 为 
向 量 序列 x, axo ，…x ,下面 来 计算 网 络 的 输出 。 循 环 层 的 输出 按照 下 面 的 公式 计算 ， 
h, = f(W,,x, +W,,h,- + b) 
在 这 里 循环 层 的 输入 向 量 是 二 维 的 ,输出 向 量 是 三 维 的 。 输 出 层 的 计算 公式 为 
y, = g(Woh, +b.) 
输出 层 的 输入 向 量 是 三 维 的 ,输出 向 量 是 二 维 的 。 需 要 注意 的 是 ,循环 层 的 每 个 神经 元 
需要 接收 同一 层 中 所 有 神经 元 在 上 一 个 时 刻 的 值 作 为 输入 ,而 不 仅仅 是 本 神经 元 上 一 个 时 
刻 的 值 。 下 面 按照 时 间 轴 进行 展开 , 当 输入 为 x 时 ,网 络 的 输出 为 
h, = f(W.,xi + b,) 
yi = g(W,h, +b.) 
当 输入 为 xs 时 ,网 络 的 输出 为 
h; ГОУ х + Wiki + bi) = f(W; x; +W, f Wax + bi) + b.) 
уг = g(W.h; + b.) 
输出 值 与 x охо 都 有 关 。 以 此 类 推 ,可 以 得 到 x... 时 网 络 的 输出 值 ,x, 时 的 输出 
值 与 x xe eee ux, 都 有 关 。 通 过 这 个 例子 更 清楚 地 看 到 了 循环 神经 网 络 通过 递 推 的 计算 实 
现 了 记忆 功能 。 


16.1.4 深层 网 络 


上 面 介 绍 的 循环 神经 网 络 只 有 一 个 输入 层 、 一 个 循环 层 和 一 个 输出 层 。 与 全 连接 神经 
网 络 以 及 卷 积 神经 网 络 一 样 ,可 以 把 它 推广 到 任意 多 个 隐 含 层 的 情况 ,得 到 深层 循环 神经 
网 络 器 。 

这 里 有 3 种 方案 ,第 一 种 方案 称 为 Deep Input-to-Hidden Function , 它 在 循环 层 之 前 加 
入 多 个 普通 的 全 连接 层 , 将 输入 向 量 进行 多 层 映 射 之 后 再 送 入 循环 层 进行 处 理 。 
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第 二 种 方案 是 Deep Hidden-to-Hidden Transition, 它 使 用 多 个 循环 层 ,这 和 前 馈 型 神 
经 网 络 类 似 , 唯 一 不 同 的 是 计算 隐 含 层 输 出 的 时 候 需 要 利用 本 隐 含 层 上 一 时 刻 的 值 。 

第 三 种 方案 是 Deep Hidden-to-Output Function , 它 在 循环 层 到 输出 层 之 间 加 入 多 个 全 
连接 层 ,这 和 第 一 种 情况 类 似 。 

由 于 循环 层 一 般 用 tanh 作为 激活 函数 ,层次 过 多 之 后 会 导致 梯度 消失 问题 ,和 第 5 章 
中 介绍 的 残 差 网 络 类 似 , 可 以 采用 跨 层 连接 的 方案 。 在 16.5 节 的 应 用 问题 上 ,会 看 到 深层 
循环 神经 网 络 的 应 用 ,实验 结果 证 明 深层 网 络 比 浅 层 网 络 有 更 好 的 精度 。 


16.2 网 络 的 训练 


前 面 介绍 了 循环 神经 网 络 的 结构 , 接 下 来 要 解决 的 问题 是 网 络 的 参数 如 何 通过 训练 确 
定 。 循 环 神经 网 络 的 输入 是 序列 数据 ,每 个 训练 样本 是 一 个 时 间 序 列 , 包 含 多 个 相同 维 数 的 
向 量 。 解 决 循 环 神经 网 络 训 练 问题 的 算法 是 Back Propagation Through Time 算法 ,简称 
BPTT #5) 

循环 神经 网 络 的 每 个 训练 样本 是 一 个 时 间 序 列 , 同 一 个 训练 样本 前 后 时 刻 的 输入 值 之 
间 有 关联 ,每 个 样本 的 序列 长 度 可 能 不 相同 。 训 练 时 先 对 这 个 序列 中 每 个 时 刻 的 输入 值 进 
行 正 向 传播 ,再 通过 反 向 传播 计算 出 参数 的 梯度 值 并 更 新 参数 。 


16.2.1 一 个 简单 的 例子 


与 第 9 章 的 做 法 一 样 , 在 这 里 先 对 一 个 简单 的 例子 进行 推导 ,使 用 图 16.3 的 网 络 结构 。 
假设 有 一 个 训练 样本 ,其 序列 值 为 
Ga «yi Y2) (хз. уз) 
其 中 ,x; 为 输入 向 量 ;y; 为 标签 向 量 。 循 环 层 状态 的 初始 值 设置 为 0。 在 :=1 时 刻 , 网 络 的 
输出 为 
иу = Wax +b, 


h, = f(u) 
v, = W,h + b, 
yi = g(%) 


在 :一 2 时 刻 , 网 络 的 输出 为 
и, = Wax; + Wi, f (Winx + b) + b, 


h, = fn) 
v: = W,h, + b, 
yz = gv) 


在 :一 3 时 刻 , 网 络 的 输出 为 
us = Махз Wis f Wanx2 + Win f (Wix + bi) + bj? + b, 


3 = fan) 
v; = М, + b, 
уз = gv) 


对 单个 样本 的 序列 数据 ,定义 上 时 刻 的 损失 函数 为 
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L, = LCy sy!) 


总 损失 函数 为 各 个 时 刻 损失 函数 之 和 


L= > L(y y? 
如 果 输 出 层 使 用 softmax ZH ‚{Й c РА ЖОЕ FE L ДАТ 
L, =— yiln(y/ ) 
这 种 情况 下 的 梯度 计算 公式 在 15.7.7 节 中 已 经 推导 过 : 
Veli = y — y, 
下 面 来 计算 损失 函数 对 输出 层 参 数 的 梯度 。 根 据 9. 2. 2 节 的 结论 ,在 1 时 刻 损失 函数 
对 输出 层 权 重 的 梯度 为 
Vw Li = (V ,L,)hf = (уг — yoh? 
对 偏 置 项 的 梯度 为 
VoL = V,L,= y —y, 
总 损失 函数 对 权重 的 梯度 为 


Vw L= У) (у — yB) 
对 偏 置 项 的 梯度 为 


V, L = > Gy! у,)) 

下 面 来 看 隐 含 层 , 与 输出 层 相 比 情况 更 复杂 。 按 时 间 展 开 之 后 ,各 个 时 刻 隐 含 层 的 输出 
值 是 权重 和 矩阵 和 偏 置 向 量 的 复合 函数 ,和 全 连接 神经 网 络 类 似 , 但 这 种 复合 是 在 时 间 轴 上 进 
行 的 ,每 次 都 用 同一 个 权重 矩阵 。 全 连接 神经 网 络 是 在 各 个 神经 元 层 之 间 进 行 的 ,各 个 层 的 
权重 矩阵 不 同 。 

首先 考虑 = 1 时 刻 。 根 据 9. 2. 2 节 的 结论 ,对 Ws 的 梯度 为 

Vw,Li— (V, LOT = (V4 LOOF Gy at = WIC LDOF Cu))xT 
= (Wir — DOS Cn) xt 

由 于 c= 1 时 刻 隐 含 层 的 输出 值 和 W, 无关, 因此 

Vw,Li = 0 
对 偏 置 项 有 
Vali = Vali = (W3 Oi —y Of (un) 

下 面 考虑 1 二 2 时 刻 。 因 为 

uz = Мах +W, f (Wax. + b) + b, 
在 这 里 Was 出 现 了 2 次 。 根 据 9.2.2 节 的 结论 ,这 个 时 刻 损 失 函 数 对 权重 Wa BJ Bb EE 0 

Vw,L; = (V ,, Leda? + (V n L. )xt 
现在 的 关键 是 计算 YL ,由 于 

u; = М.х. + W,, f Qi) + b, 
根据 9. 2. 2 节 的 结论 ,有 
VaL; = Va LO 0ш) = Wi (V ,, L.) @ f Qui) 

带 入 上 式 可 以 得 到 
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Vw,Li— (V, Га) + (WA СУ ,, L0 f'Gn))xT 


COV n LDO f' Cuz) x? + Wi (CV a, LDO F Q0 OF Gay xT 
(QV (Vo, Le) JOS (u2) )х + (Wi (QS (V L2) OS (ue) OF Qn ))хт 
下 面 计算 Y w Lo: 

V w L, = (V „Н = (СУ ,, Ls) @ f (u, ))hT 

= (ОИ CY ,,L,))@ f'(u,))hT 
下 面 考虑 :一 3 时 刻 。 因 为 

из = Махз + Win f (Waxz + Win f QWaxi + bj + bi) + b, 

在 这 里 Wa 出 现 了 3 次 。 根 据 9.2.2 节 的 结论 ,对 Ws 的 梯度 为 

V w Ls = (Vau Га) + (Lu Ls )x2 + (Va, La xT 
V a Lo 的 值 可 以 直接 求 出 。 类 似 地 可 以 计算 出 YLs г 
Vals = (Va lL Of (u) = Wa (Vu, Ls) Of’ Cue) 


以 及 Yu La: 
V a La = (Vn LOOF ai) = Wa (У, Ls) OF Qi) 
= Мр (Vy, LO f'Gn) 
= Wi (Wh (V ,, La) O f'(u,))@ f' Qi) 
由 此 得 到 了 Y w,Ls 。 类 似 地 可 以 计算 出 Y wLs。 在 计算 出 每 个 时 刻 的 损失 函数 对 各 
个 参数 的 梯度 之 后 ,把 它们 加 起 来 就 得 到 总 损失 函数 对 各 个 参数 的 偏 导数 : 


3 
Vb», Vw. Ls 
=1 


Vm L = > V w, L, 
然后 用 梯度 下 降 法 进行 参数 更 新 。 
16.2.2 ”完整 的 算法 


接 下 来 把 这 个 例子 推广 到 一 般 情 况 ,得 到 通用 的 BPTT 算法 。 只 有 一 个 循环 层 和 一 个 
输出 层 的 循环 神经 网 络 正 向 传播 时 的 变换 为 
и, = W, x, Wah + b, 


h, = f(u,) 
v, = W.h, + b, 
y =g) 


损失 函数 的 定义 和 全 连接 网 络 、 卷 积 网 络 不 同 。 全 连接 网 络 和 卷 积 网 络 的 各 个 训练 样 
本 之 间 没 有 关系 ,损失 函数 是 所 有 样本 损失 的 均值 。 循 环 神经 网 络 的 单个 样本 是 一 个 时 间 
序列 ,每 个 时 刻 都 有 损失 ,因此 损失 函数 定义 为 沿 着 时 间 轴 累加 : 


L= ML 
Joh Ty Wot Tel 906948 BE SL, 为 + 时 刻 的 损失 函数 : 
L, = L(y -y,) 
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循环 神经 网 络 的 反 向 传播 是 基于 时 间 轴 进行 的 ,我 们 需要 计算 所 有 时 刻 的 总 损失 函数 
对 所 有 参数 的 梯度 ,然后 用 梯度 下 降 法 进行 更 新 。 另 外 需要 注意 的 是 循环 神经 网 络 在 各 个 
时 刻 的 权重 、 偏 置 都 是 相同 的 。 

首先 计算 输出 层 偏 置 项 的 梯度 ; 


N b. = 2 Vil. = Уе, ‚= DILE L)Og'(v,)) 
如 果 选 择 softmax fF $i th 2 00 906 АЖ. Ж Ж}: K HUR РА 50. E I BJ IE D 
у= > VL = Уу.) = So: — y)Og' Co) 
对 权重 矩阵 的 梯度 为 ü i 
Ñ = > Vw L= Duv, уйу = «o — y) Og' CoD RD) 


t=1 
下 面 考虑 循环 层 。 因为 
и, = W;x, +УУ„һ,—у + b, = Wax, + W,, f (Ui) b, 
根据 9.2.2 节 的 结论 ,有 
V, L, = Ga DOF a) = (Wh (VL) OF Gia) 
ШЕ Y V, Le 与 VL, 之 间 的 递 推 关系 。 定 义 误差 项 为 
à, = V ,L 

在 整个 损失 函数 工 中 , 比 t 更 早 的 时 刻 1,2,…,t 一 1 8938 A ДЯ us КШ EE 

关 ;L, Hu, 决定 ,和 它 直 接 相 关 ; 比 1 晚 的 时 刻 的 wr uses ит 都 与 a, 有 关 。 因 此 有 
б, = V ,L, + (Wa) S) OF Qu) 
而 
у= Vp LOF Ca) = (WT V LOO f'(u,) 
= (WVTI p L,)@g'(u,)))@ f (a) 
带 入 上 式 得 到 
б, = (WT (V py LI Og’ WDO F Qu) + Wu Ton © f” Qu) 

由 此 建立 了 误差 项 沿 时 间 轴 的 弟 推 公式 。 可 以 类 比 前 馈 型 神经 网 络 , 在 前 馈 型 神经 网 
络 中 ,通过 后 面 层 的 误差 项 计算 本 层 误差 项 。 在 循环 神经 网 络 中 ,通过 后 一 个 时 刻 的 误差 项 
来 计算 当前 时 刻 的 误差 项 。 递 推 的 终点 是 最 后 一 个 时 刻 的 误差 : 

ór = (WV LOS (ит) = (W.)T((V ,; L)Og'(ur))@ f (ur) 

TH fg v FE пр LIT ARB UK PR ЖОГ AC E RI Н) ЛЕ. SUK РЕЖ L JE us usse 

ur 的 函数 ,而 它们 都 是 权重 和 偏 置 的 函数 。 根 据 链 式 法 则 ,有 


T T 
= J VaL = Ууёнт, 
t=1 gel 
类 似 地 ; 
Y 
Vw L= So. Bars 


t=1 


对 偏 置 项 的 梯度 为 
T T 
у= Ууу. = 528, 


t=1 t=1 
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计算 出 对 所 有 权重 和 偏 置 的 梯度 之 后 ,由 此 可 以 得 到 BPTT 算法 的 流程 。 


循环 ,对 1 二 1,2,…, 开 
对 (xy) 进 行 正 向 传播 
结束 循环 
计算 输出 层 权 重 和 偏 置 的 梯度 
用 梯度 下 降 法 更 新 输出 层 权 重 和 偏 置 的 值 
循环 , 反 向 传播 ,对 = T. ,2,1 
计算 误差 项 ó, 
根据 误差 项 计算 循环 层 权 重 和 偏 置 的 梯度 
用 梯度 下 降 法 更 新 循环 层 权 重 和 偏 置 的 值 
结束 循环 


与 全 连接 神经 网 络 . 卷 积 神经 网 络 类 似 , 这 种 在 时 间 轴 上 累积 信息 的 网 络 结构 同样 存在 
梯度 消失 和 梯度 爆炸 问题 ,在 16. 3 节 中 将 会 详细 解释 并 介绍 解决 的 办 法 。 


16.3 挑战 与 改进 措施 


本 节 中 将 分 析 梯度 消失 问题 和 梯度 爆炸 问题 形成 的 原因 以 及 改进 措施 。 
16.3.1 梯度 消失 


循环 神经 网 络 在 进行 反 向 传播 时 也 面临 梯度 消失 或 者 梯度 爆炸 问题 ,这 种 问题 表现 在 
时 间 轴 上 。 如 果 输 入 序列 的 长 度 很 长 ,人 们 很 难 进行 有 效 的 参数 更 新 。 文 献 [7] 对 循环 神经 
网 络 难以 训练 的 问题 进行 了 分 析 。 文 献 L6] 对 这 一 问题 也 进行 了 解释 ,并 给 出 一 种 解决 
方案 。 

下 面 对 循 环 神经 网 络 的 梯度 消失 问题 和 梯度 爆炸 问题 给 出 一 个 不 太 严 格 的 解释 。 循 环 
层 的 变换 为 

h, = f(W,,x, + Walia +b) 
根据 这 个 递 推 公式 ,按时 间 进 行 展 开 后 为 
h, = Рх, +W, f (W.,x,-, 十 Wap + b,) + b,) 
如 果 一 直 展 开 到 h ,对 上 式 进 行 简化 ,去 掉 激 活 函 数 的 作用 ,1 时 刻 的 状态 传递 到 上 时 
刻 会 变 为 
h, = (Wa hy 
假设 矩阵 Wu 可 以 对 角 化 ,存在 正 交 和 矩阵 Q 使 得 : 
Q'WQ = A 
其 中 ,A 是 对 角 和 矩阵 ,对 角 线 上 的 元 素 是 矩阵 Wu A IEEE. H T 
W = QAQ" 
根据 矩阵 乘法 的 结合 律 可 以 得 到 
WT! = (0407)7T = (ОЛОТ) (ОЛОТ) --- ОЛО") = ОАТОТ 
在 这 里 ОТО=1.[Я Q ЕЗЖЕ, MAAN ЖЕУ А ЖЖЖ. WR Wi 的 特 
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征 值 的 绝对 值 小 于 1, 经 过 多 次 乘积 之 后 ,会 接近 于 0, 在 正 向 传播 阶段 , 隐 含 层 的 信息 就 难 
以 传递 到 很 远 的 时 刻 ; 如 果 特 征 值 的 绝对 值 大 于 1, 多 次 乘积 之 后 ,会 趋向 于 无 穷 大 。 要 解 
决 上 面 的 问题 ,就 需要 让 每 次 相 乘 的 值 接近 于 1。 反 向 传播 时 ,也 要 连续 乘 以 矩阵 Wi ,会 面 
临 同样 的 问题 。 

从 上 面 的 分 析 中 可 以 看 出 ,即使 是 在 正 向 传播 过 程 中 ,要 把 很 久 以 前 时 刻 的 状态 值 传递 
到 当前 时 刻 , 存 在 很 大 的 困难 。 反 向 传播 计算 梯度 时 ,每 次 也 要 乘 上 权重 矩阵 ,存在 同样 的 
问题 。 

如 何 解决 这 个 问题 ?问题 的 根源 在 于 矩阵 的 多 次 乘积 。 如 果 我 们 让 每 次 矩阵 乘积 的 效 
果 近 似 于 对 元 素 乘 以 接近 于 1 的 值 , 问 题 就 能 得 到 解决 ,但 是 权重 矩阵 的 值 我 们 无 法 控制 。 
另外 一 个 思路 是 避免 这 种 矩阵 的 累 次 乘积 ,目前 主流 的 方法 采用 了 这 种 做 法 。 接 下 来 我 们 
将 分 别 介绍 解决 此 问题 的 两 种 方法 一 一 长 短期 记忆 模型 以 及 门 控 循 环 单元 。 


163.2 ”长 短期 记忆 模型 


长 短期 记忆 模型 (Long Short-Term Memory, LSTM) H Schmidhuber 等 人 在 1997 年 
提出 中 。 它 对 循环 层 单元 进行 改造 ,避免 用 前 面 的 公式 直接 计算 隐 含 层 状态 值 。 具 体 方法 
是 使 用 输入 门 、 遗 忘 门 .输出 门 3 个 元 件 , 通 过 另外 一 种 方式 由 h HPE h,。LSTHM 的 基本 
单元 称 为 记忆 单元 ,记忆 单元 在 1 时 刻 维持 一 个 记忆 值 c, ,循环 层 状 态 的 输出 值 计算 公式 为 

h, = о,С©)їапһ(с,) 
这 是 输出 门 与 记忆 值 的 乘积 。 其 中 ,o 为 输出 门 , 这 是 一 个 向 量 ,按照 如 下 公式 计算 ， 
о, = o(W,.,x, Whoh + ba) 
其 中 ,c 为 sigmoid 函数 。 输 出 门 决定 了 记忆 单元 中 存储 的 记忆 值 有 多 大 比例 可 以 被 输出 。 
使 用 sigmoid 函数 是 因为 它 的 值 域 是 (0,1) ,这 样 o, 的 所 有 分 量 的 取 值 范围 都 在 0 一 1, 它 们 
分 别 与 另外 一 个 向 量 的 分 量 相 乘 ,可 以 控制 另外 一 个 向 量 的 输出 比例 。W.。 Wi vbo 是 输出 
门 的 权重 矩阵 和 偏 置 项 ,这 些 参数 通过 训练 得 到 。 
记忆 值 e, 是 循环 层 神经 元 记 住 的 上 一 个 时 刻 的 状态 值 , 随 着 时 间 进 行 加 权 更 新 , 它 的 
更 新 公式 为 
e, = }, Ос. + i, Ətanh(W, x, +W,h,-, + b.) 
其 中 ,f, 是 遗忘 门 ;c 一 是 记忆 单元 在 上 一 时 刻 的 值 ,遗忘 门 决定 了 记忆 单元 上 一 时 刻 的 值 
有 多 少 会 被 传 到 当前 时 刻 , 即 遗忘 速度 。 记 忆 单 元 当前 值 是 上 时 刻 值 与 当前 输入 值 的 加 权 
和 ,记忆 值 只 是 个 中 间 值 。 遗 忘 门 的 计算 公式 为 
f, = oW yx, + Wah + bp 

这 里 也 使 用 了 sigmoid 函数 。i, 是 输入 门 , 控 制 着 当前 时 刻 的 输入 有 和 多少 可 以 进入 记 

忆 单 元 ,其 计算 公式 为 





i, = c(W,x, БМВ. + b;) 
这 3 个 门 的 计算 公式 都 是 一 样 的 ,分 别 使 用 了 自己 的 权重 矩阵 和 偏 置 向 量 , 这 3 个 值 的 
计算 都 用 到 了 x, RIAL. ,它们 起 到 了 信息 的 流量 控制 作用 。 
隐 含 层 的 状态 值 由 遗忘 门 ` 记 忆 单 元 上 一 时 刻 的 值 , 以 及 输入 门 、 输 出 门 共同 决定 。 除 
掉 3 个 门 之 外 ,真正 决定 hh 的 只 有 x, 和 有 ,1。 总 结 起 来 .LSTM 的 计算 思路 如 下 : 输入 门 
作用 于 当前 时 刻 的 输入 值 ,遗忘 门 作用 于 之 前 的 记忆 值 ,二 者 加 权 和 ,得 到 汇总 信息 ;最 后 通 
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过 输出 门 决定 输出 值 。 如 果 将 LSTM 在 各 个 时 刻 的 输出 值 进 行 展开 ,会 发 现 其 中 有 一 部 分 
最 早 时 刻 的 输入 值 避 免 了 与 权重 矩阵 的 累 次 乘法 ,这 是 LSTM 能 够 缓解 梯度 消失 问题 的 主 
要 原 


16.3.3“ 门 控 循 环 单元 


门 控 循 环 单元 Cs (Gated Recurrent Units.GRU) 是 解决 循环 神经 网 络 梯度 消失 的 另外 
一 种 方法 , 它 也 是 通过 门 来 控制 信息 的 流动 。 与 LSTM 不 同 的 是 ,GRU 只 使 用 了 两 个 门 ， 
把 LSTM 的 输入 门 和 遗忘 门 合并 成 更 新 门 。 更 新 门 的 计算 公式 如 下 : 
z, = o(W..x, + Wich, 1) 
更 新 门 决定 了 之 前 的 记忆 值 进入 当前 值 的 比例 。 另 外 一 个 门 是 重 置 门 ,定义 如 下 ， 
r, = o(W, x, +W,,h,-,) 
这 种 门 的 计算 公式 和 LSTM 一 样 ,我 们 不 再 做 重复 解释 。 记 忆 单 元 的 值 定 义 为 
с, = tanh(W,,x, + W, (hi Or) 
它 由 上 一 个 时 刻 的 状态 值 及 当前 输入 值 共 同 决定 。 隐 含 层 的 状态 值 定义 为 
h, = (1—‚)©с,-+©һ,-\ 
它 是 当前 时 刻 的 记忆 值 以 及 上 一 时 刻 的 状态 值 的 加 权 组 合 。 根 据 正 向 传播 计算 公式 可 
以 推导 出 反 向 传播 时 误差 项 和 权重 梯度 的 计算 公式 。 


16.3.4 双向 网 络 


前 面 介绍 的 循环 神经 网 络 是 单 向 的 ,每 一 个 时 刻 的 输出 依赖 于 比 它 早 的 时 刻 的 输入 值 ， 
这 没有 利用 未 来 时 刻 的 信息 。 对 于 有 些 问 题 , 当 前 时 刻 的 输出 不 仅 与 过 去 时 刻 的 数据 有 关 ， 
还 与 将 来 时 刻 的 数据 有 关 , 如 机 器 翻译 问题 。 为 此 ,Schuster 等 人 设计 了 双向 循环 神经 网 
络 中 , 它 用 两 个 不 同 的 循环 层 分 别 从 正 向 和 反 向 对 数据 进行 扫描 。 正 向 传播 时 的 流程 如 下 : 


循环 ,对 t= 二 1,…,2,T 
用 正 向 循环 层 进行 正 向 传播 , 记 住 每 一 个 时 刻 的 输出 值 
结束 循环 
循环 ,对 t 二 T,…,2,1 
用 反 向 循环 层 进行 正 向 传播 , 记 住 每 一 个 时 刻 的 输出 值 
结束 循环 
循环 ,对 所 有 的 上 ,可 以 按照 任意 顺序 进行 计算 
用 正 向 和 反 向 循环 层 的 输出 值 拼接 起 来 作为 输出 层 的 输入 ,计算 最 终 的 输出 值 
结束 循环 
下 面 用 一 个 简单 的 例子 来 说 明 ,假设 双向 循环 神经 网 络 的 输入 序列 为 
Ny Xy ot s Xa 
首先 用 第 一 个 循环 层 进行 正 向 迭代 ,得 到 隐 含 层 的 正 向 输出 序列 : 
Ta sss ЧЕ? 
在 这 里 记 由 x, R h, 由 za xs 决定 ,高 HH ху охо x; 决定 让 由 ха охо оха X, 决定 , 即 
每 个 时 刻 的 状态 值 由 到 当前 时 刻 为 止 的 所 有 输入 值 序列 决定 ,这 里 利用 的 是 序列 的 过 去 时 














А 
460} aS зи 


刻 信息 。 然 后 用 第 二 个 循环 层 进行 反 向 迭代 ,输入 顺序 是 xi ох tto f #| @ JE AY БЕ I6] 
输出 序列 : 
heboh, 
EX hi, 由 x, 决定 ,所 由 x оха DOE tte 由 xe xa xs БЕЙ. ЇН x охооо 决定 ， 
即 每 个 时 刻 的 状态 值 由 它 之 后 的 输入 序列 决定 ,这 里 利用 的 是 序列 未 来 时 刻 的 信息 。 然 后 
将 每 个 时 刻 的 隐 含 层 正 向 输出 序列 和 反 向 输出 序列 合并 起 来 : 
h; = [.Ё;] 
送 入 神经 网 络 中 后 面 的 层 进行 处 理 得 到 输出 值 ,此 时 ,各 个 时 刻 的 处 理 顺序 是 随意 的 ， 
可 以 不 用 按照 输入 序列 的 时 间 顺 序 。 


16.4 序列 预测 问题 


循环 神经 网 络 实现 的 是 序列 到 序列 的 映射 ,输入 序列 在 每 个 时 刻 都 对 应 一 个 输出 值 ; 
(ху,х»ә,***,Хт) > Cys Voor yr? 
以 这 种 映射 关系 为 基础 ,可 以 构造 出 多 种 解决 序列 预测 问题 的 方法 。 序 列 预测 问题 只 
要 求 输入 是 一 个 序列 数据 ,输出 是 多 样 化 的 ,可 以 是 一 个 向 量 , 也 可 以 是 多 个 向 量 构成 的 序 
列 , 并 且 两 个 序列 的 长 度 可 以 不 相等 。 


16.4.1 序列 标注 问题 


序列 标注 问题 "中 指 将 一 个 序列 数据 映射 成 离散 标签 值 序列 的 任务 ,其 本 质 是 根据 上 下 
文 信息 对 序列 每 个 时 刻 的 输入 值 进行 预测 。 典 型 的 序列 标注 问题 包括 语音 识别 .机 器 翻译 、 
词性 标注 等 。 对 于 语音 识别 问题 ,输入 数据 是 语音 信号 序列 ,输出 是 离散 的 文字 序列 ;对 于 
机 器 翻译 问题 ,输入 是 一 种 语言 的 语句 , 即 单词 序列 ,输出 是 另外 一 种 语言 的 单词 序列 ;对 于 
词性 标注 问题 ,输入 是 一 句 话 的 单词 序列 ,输出 是 每 个 单词 的 词性 ,如 名 词 动词 。 

与 普通 的 模式 分 类 问题 相 比 ,序列 标注 问题 最 显著 的 区 别 是 输入 序列 数据 的 数据 点 之 
间 存 在 相关 性 ,输出 序列 数据 的 数据 点 之 间 也 存在 相关 性 。 例 如 ,对 于 语音 识别 问题 ,一 句 
话 的 语音 信号 在 各 个 时 刻 显 然 是 相关 的 ;识别 的 结果 由 单词 序列 组 成 ,各 个 单词 之 间 显 然 也 
具有 相关 性 ,它们 必须 符合 词法 和 语法 规则 。 

序列 标注 问题 的 一 个 困难 之 处 在 于 输入 序列 和 输出 序列 之 间 的 对 齐 关 系 是 未 知 的 。 以 
语音 识别 问题 为 例 , 语 音信 号 哪个 时 间 段 内 的 数据 对 应 哪个 单词 的 对 应 关系 在 进行 识别 之 
前 并 不 知道 ,我 们 不 清楚 一 个 单词 在 语音 信号 中 的 起 始 时 刻 和 终止 时 刻 。 

循环 神经 网 络 因为 具有 记忆 功能 ,特别 适合 序列 标注 任务 。 但 是 ,循环 神经 网 络 在 处 理 
这 类 任务 时 面临 几 个 问题 。 第 一 个 问题 是 标准 的 循环 神经 网 络 是 单 向 的 ,但 有 些 问 题 不 仅 
需要 序列 过 去 时 刻 的 信息 ,还 需要 未 来 时 刻 的 信息 。 例 如 ,我 们 要 理解 一 个 句子 中 的 某 个 
词 , 它 不 仅 与 句子 中 前 面 的 词 有 关 , 还 与 后 面 的 词 有 关 , 即 上 下 文 语 境 。 解决 这 个 问题 的 方 
法 是 双向 循环 神经 网 络 , 这 在 之 前 已 经 介绍 。 

第 二 个 问题 是 循环 神经 网 络 的 输出 序列 和 输入 序列 之 间 要 对 齐 , 即 每 一 个 时 刻 的 输出 
值 与 输入 值 对 应 ,而 有 些 问 题 中 输入 序列 和 输出 序列 的 对 应 关系 是 未 知 的 。 典 型 的 是 语音 
识别 问题 ,这 在 前 面 已 经 介绍 。 解决 这 个 问题 的 一 种 方法 是 连接 主义 时 序 分 类 
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(Connectionist Temporal Classification. CTC) 。 


根据 输入 序列 和 输出 序列 的 对 应 关系 ,可 以 将 序列 标注 问题 分 为 三 类 。 第 一 类 是 序列 
分 类 问题 , 它 给 输入 序列 赋予 一 个 类 别 标签 , 即 输出 序列 只 有 一 个 值 ,因此 输出 序列 的 长 度 
为 1。 第 二 类 问题 为 段 分 类 问题 ,输入 序列 被 预先 分 成 了 几 段 ,每 段 为 一 个 序列 ,为 每 一 段 
赋予 一 个 标签 值 ,显然 ,第 一 类 问题 是 第 二 类 问题 的 一 个 特例 。 第 三 类 问题 为 时 序 分 类 问 
题 ,对 于 这 类 问题 ,输入 序列 和 输出 序列 的 任何 对 齐 方式 都 是 允许 的 。 第 二 类 问题 是 第 三 类 
问题 的 一 个 特例 ,因此 ,这 3 类 问题 是 层 层 包含 关系 。 


16.4.2 连接 主义 时 序 分 类 


循环 神经 网 络 虽 然 可 以 解决 序列 数据 的 预测 问题 ,但 它 要 求 输入 的 数据 是 每 个 时 刻 分 
割 好 并 且 计 算得 到 的 固定 长 度 的 特征 向 量 。 对 于 有 些 问 题 ,对 原始 的 序列 数据 进行 分 割 并 
计算 特征 向 量 存在 困难 ,典型 的 是 语音 识别 。 人 们 很 难 先 对 原始 的 声音 信号 进行 准确 分 割 ， 
得 到 每 个 发 音 单元 所 对 应 的 准确 的 时 间 区 间 。 解 决 这 类 问题 的 一 种 典型 方法 是 СТС 
(Connectionist Temporal Classification) 技 术 。 

CTCO9 是 一 种 解决 从 带 有 噪声 和 未 格式 化 的 序列 数据 预测 标签 值 的 通用 方法 ,不 要 求 
将 输入 数据 进行 分 割 之 后 再 送 入 循环 神经 网 络 中 预测 。2013 年 Graves 等 人 将 这 一 方法 用 
于 语音 识别 问题 "5 ,通过 和 循环 神经 网 络 整合 来 完成 语音 识别 任务 。CTC 解决 问题 的 关 
键 思 路 是 引入 了 空白 符 , 以 及 用 一 个 函数 将 循环 神经 网 络 的 原始 输出 序列 映射 为 最 终 的 标 
签 序列 ,消除 掉 空 白 符 和 进行 连续 相同 输出 的 合并 。 

假设 训练 样本 集 为 S, 训 练 样本 服从 概率 分 布 Dxxz。 输 入 空间 是 输入 向 量 序列 的 集 
合 ,定义 为 

X = (R")* 
这 是 所 有 m 维 实 向 量 序列 的 集合 。 目 标 空间 定义 是 输出 向 量 序 列 的 集合 ,定义 为 
Z= L° 
这 是 建立 在 包含 有 限 个 字母 集 L 之 上 的 标签 序列 的 集合 .将 L" 中 的 元 素 称 为 标签 序 
列 。 训 练 样本 集中 的 每 个 样本 是 一 个 序列 对 (x,z)。 其 中 输入 序列 为 
x = (XN yr) 
目标 序列 为 
z = (zem) 

这 有 一 个 约 东 条件, 目标 序列 的 长 度 不 大 于 输入 序列 的 长 度 , 即 U< T. ОШЕН pU 
的 长 度 与 输入 序列 的 长 度 可 能 不 相等 ,因此 无 法 用 先 验 知识 将 它们 对 齐 , 即 让 输出 序列 的 某 
些 元 素 和 输入 序列 的 某 一 个 元 素 对 应 起 来 。 我 们 的 目标 是 用 训练 样本 集训 练 一 个 时 序 分 
Жї: 

h:X >Z 
然后 用 它 对 新 的 输入 序列 进行 分 类 。 分 类 时 ,要 让 定义 的 某 种 误差 最 小 化 。 

给 定 测试 样本 集 S'CDxxz ,时 序 分 类 器 的 标签 错误 率 定义 为 预测 的 标签 值 与 真实 标签 

值 的 归 一 化 编辑 距离 的 均值 : 


LER(h.S’) 





5) ED(AG) .z) 


[pes [z] 
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其 中 ,ED(p,q) 是 两 个 序列 р 和 g 之 间 的 编辑 距离 .即将 р 序列 变 成 g 所 需要 的 最 少 的 元 素 
插入 、 删 除 和 替换 的 次 数 。 

要 使 用 循环 神经 网 络 对 时 序数 据 进 行 分 类 ,其 中 关键 的 一 步 是 将 循环 神经 网 络 的 输出 
值 转换 成 某 一 个 序列 的 条 件 概 率 值 。 这 样 ,通过 寻找 使 得 这 个 条 件 概 率 最 大 化 的 输出 序列 
来 完成 对 输入 序列 的 分 类 。 

CTC 网 络 的 输出 层 为 softmax 层 , 如 果 标 签字 母 集中 的 字母 个 数 为 | | , 则 这 一 层 有 
|L| 十 1 个 神经 元 ,其 中 前 |L | 个 神经 元 表示 在 某 一 个 时 刻 输 出 标签 为 每 一 个 标签 字母 的 概 
率 , 最 后 一 个 神经 元 的 输出 值 为 输出 标签 值 为 空 的 概率 , 即 没 有 标签 输出 。 这 样 , softmax 
层 在 各 个 时 刻 的 输出 值 合并 在 一 起 ,定义 了 各 种 可 能 的 输出 标签 序列 和 输入 序列 进行 对 齐 
的 方式 的 概率 。 任 何 一 个 标签 序列 的 概率 值 可 以 通过 对 其 所 有 不 同 的 对 齐 方式 的 概率 进行 
求 和 得 到 。 

假设 输入 序列 的 长 度 为 ,循环 神经 网 络 的 输入 数据 为 m 维 , 输 出 向 量 为 维 , 权 重 向 
量 为 w, 它 实现 了 如 下 的 映射 

(К) > (к)? 

我 们 将 网 络 的 映射 写成 ?= N. GO ,其 中 ,y 是 输出 序列 。 在 上 时刻, 网 络 第 & 个 输出 单 
TEN yko EXE y; 可 以 将 解释 为 在 上 时 刻 观测 标签 & 的 概率 。 这 个 概率 值 定义 了 集 
ALT PREX T 的 序列 所 服从 的 概率 分 布 ,其 中 LL 二 LU({blank}), 即 


T 
pala = [z Vz € rr 
t=1 


在 这 里 将 集合 LT 中 的 元 素 称 为 路 径 (Path), 记 为 x。 接 下 来 ,定义 一 个 多 对 一 的 映 

射 , 将 神经 网 络 的 输出 序列 映射 为 最 终 需要 的 标签 值 序列 : 
Bt > LST 
其 中 ,Ls7 是 所 有 可 能 的 输出 标签 序列 的 集合 , 即 由 字母 集合 中 的 字母 组 成 的 长 度 小 于 或 等 
于 了 的 序列 的 集合 。 从 神经 网 络 的 输出 序列 LT 得 到 目标 标签 序列 L<7 的 做 法 是 消除 空白 
符 和 连续 的 重复 标签 值 。 下 面 来 看 B 函数 作用 于 一 个 序列 的 例子 : 
B(a —ab —) = B(—aa abb) — aab 

其 中 ,一 为 空白 符号 。 由 于 与 一 个 标签 序列 对 应 的 路 径 不 止 一 个 ,因此 ,目标 标签 序列 的 条 
件 概 率 应 该 等 于 能 得 到 它 的 所 有 路 径 的 条 件 概 率 之 和 。 我 们 借助 映射 B 来 定义 一 个 标签 
序列 1ELs7 的 条 件 概率 , 它 等 于 所 有 映射 后 为 1 的 路 径 xEB-(D) 的 概率 之 和 : 


pad|x)= >) p(z| x) 
«Єв! (D 
下 面 用 一 个 简单 的 例子 进行 说 明 。 如 果 标 签字 母 集合 为 fa,0,c} ,路 径 的 序列 长 度 为 
4, 标 签 序列 的 长 度 为 3, 则 标签 序列 abc 所 对 应 的 所 有 可 能 路 径 x 为 


— abc 











a — bc 
ab —c 
abc — 
aabc 


a bbc 


Hick тена (463 
abcc 


总 共有 7 条 路 径 和 一 个 标签 序列 对 应 。 基 于 上 面 的 定义 ,CTC 分 类 器 的 分 类 结果 是 给 

定 输入 序列 ,寻找 上 面 的 条 件 概 率 最 大 的 那个 输出 序列 ， 
h(x) = argmaxiersT 户 (1 | x) 

在 这 里 ,需要 解决 如 何 找到 概率 最 大 的 输出 序列 的 问题 ,而 前 面 定义 的 框架 只 是 计算 给 
定 的 输出 序列 的 条 件 概率 。 采 用 和 隐 马 尔 可 夫 模型 类 似 的 概念 ,我们 称 这 一 过 程 为 解码 , 它 
们 都 是 要 得 到 概率 最 大 的 序列 值 。 直 接 计 算 概 率 p(1 |x) 显 然 不 可 能 ,因为 能 得 到 1 的 所 有 
可 能 的 x 太 多 。 在 实现 时 使 用 了 近似 的 方法 ,这 里 有 两 种 方案 。 第 一 种 方法 先 计 算 概率 最 
大 的 路 径 xt ,然后 用 B 对 这 个 路 径 进 行 处 理 , 得 到 最 终 的 输出 序列 ,将 这 个 解 作 为 上 面 定 
义 的 有 (x) 的 近似 : 

h(x) ~ B(x*) 
其 中 ,x* 为 条 件 概率 最 大 的 路 径 : 
z' = arg maxen p (r | x) 

显然 这 种 方法 的 =" 和 最 优 标签 序列 并 不 一 定 是 对 应 的 , 即 概率 最 大 的 1 并 不 一 定 对 应 
概率 最 大 的 x" 。 第 二 种 方案 为 前 级 搜索 解码 ,通过 使 用 前 向 后 向 算法 ,逐步 地 扩展 输出 的 
标签 序列 得 到 最 优 解 。 

网 络 训练 的 目标 是 最 大 化 训练 样本 集 的 似 然 概率 。 在 计算 似 然 概率 时 ,需要 计算 条 件 
概率 值 p(1|x) ,根据 它 的 定义 , 它 是 所 有 可 以 得 到 输出 序列 的 路 径 的 概率 和 ,路 径 的 数量 非 
常 多 ,因此 ,需要 一 种 高 效 的 算法 计算 这 个 概率 值 。 在 这 里 ,解决 此 问题 的 思路 是 动态 规划 。 
对 一 个 标签 序列 对 应 的 所 有 路 径 进 行 求 和 可 以 分 解 为 迭代 地 对 这 个 路 径 的 前 缀 对 应 的 路 径 

对 于 长 度 为 7 的 序列 g ,定义 gp 和 4 一 wr 分 别 为 它 的 最 前 面 和 最 后 面 个 元 素 。 对 于 
序列 1, 定义 前 向 变量 w(s) 为 上 时 刻 心 ,, 的 总 概率 : 

a,(s) = M II x, 


T pod 
z€ NT iB, DEl, 


TUS E HH E XC sa, GO RT EL HI ai GO а,— Cs D EVA ASB. Y feVr E SG HER 
径 中 出 现 空白 符 , 对 输出 标签 序列 L 进行 修改 ,在 每 两 个 符号 之 间 , 以 及 序列 的 头 尾 都 加 上 
一 个 空白 符 , 得 到 序列 ,显然 , 它 的 长 度 为 2 |1| 十 1。 在 计算 的 前 组 的 概率 时 ,允许 空白 
符 和 非 空白 符 之 间 的 转换 ,以 及 任意 两 个 不 同 的 非 空白 符 之 间 的 转换 。 所 有 前 缀 的 开头 必 
须 是 空白 符 或 者 1 的 第 一 个 符号 1。 


这 样 得 到 如 下 初始 化 规则 : 
all) = y; 
a,(2) = y, 
eG =0, Vs>2 
递 推 计算 公式 为 
G(s) yy» =b Rl, = 1, 
a,(s) = 


Gls) +an(s—2) уу, 其 他 


у 
єз 
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显然 有 


@,(s) = a (s) tamı (s—1) 


a(s)=0 Vs«|l'| —20T—0—1 
因为 这 些 变 量 对 应 于 那些 没有 足够 的 剩余 时 间 步 长 来 完成 整个 输出 序列 的 状态 。 可 以 
得 到 : 














ра | x) = а |D нот | —1) 
类 似 地 ,定义 后 向 变量 BG) 29 t EID, |, 的 总 概率 : 
В) = >} II» 


T = "=! 
zENT:B =H, ||| 


类 似 地 有 
В|) = у; 
В 11-0 = у, 
BrG) = 0, Vs«|r|—1 
BCs) ур, b= b RU =U, 
Bod =) _ = 
BO + Ва (5 + 20) ур, 其 他 
其 中 : 
RO = Ва (s) Вы (5+1) 
然后 定义 
C, = DS als) 
à(s) = 280 
类 似 地 定义 下 面 的 变量 : 
D, = >) Bs) 
BG) = Ёо 


输出 序列 的 条 件 概率 可 以 按照 下 面 的 公式 计算 : 
In (ра | xD = У) (C) 


训练 时 采用 最 大 似 然 概率 , 即 最 大 化 训练 样本 集中 所 有 样本 的 对 数 概率 值 。 这 等 价 于 
最 小 化 下 面 的 目标 函数 : 
O(S, Na) = 一 >) рб | x)) 


(rz)ES 
求解 时 可 以 采用 梯度 下 降 法 。 使 用 反 向 传播 算法 ,可 以 计算 出 神经 网 络 所 有 参数 对 目 
标 函 数 的 梯度 值 。 由 于 训练 样本 集中 各 个 样本 相互 独立 ,所 以 可 以 分 别 计算 每 个 样本 的 目 
标 函数 对 神经 网 络 输 出 值 的 偏 导数 : 
9O™" (Tx; zi N.Y aln (p(z | x) 
ду Iyk 
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利用 前 面 定 义 的 < 和 有 这 两 个 变量 ,可 以 很 容易 计算 出 导数 值 。 对 于 一 个 输出 标签 序 
列 1, 前 向 和 后 向 变量 在 给 定 的 和 zt 处 的 值 的 乘积 为 1 对 应 的 所 有 路 径 中 ,在 上 时 刻 经 过 > 
的 所 有 路 径 的 概率 的 乘积 : 


T 
«GRO = >) » IT ж 
t=1 


z€ B lop 


x=, 
整理 后 得 到 


шд) _ У) Helan 
У, m 

z€B (D 

„=, 


由 于 a GO, ONA PR ETE t AARET s A p(1|x) 的 定义 , 它 只 是 pC х) ng— 
部 分 。 因 此 ,可 以 对 所 有 的 + 和 s 求 和 得 到 户 (L |x) 869 f 


T 1 
MTS St ады 
у, 














t=1 s=1 


由 于 神经 网 络 的 输出 值 之 间 条 件 独立 ,因此 ,在 计算 pA xz) 对 у; 的 偏 导数 时 只 用 考虑 
t 时 刻 经 过 标签 值 的 那些 路 径 。 由 于 在 标注 序列 ! 中 同一 个 标签 值 在 不 同时 刻 可 能 会 重 
复出 现 , 我 们 定义 标签 值 在 序列 1 中 出 现 的 时 刻 的 集合 为 lab(1,k) 二 {5:4, 二 k}, 这 可 能 是 
一 个 空 集 。 这 样 有 











ap(1|x)__ 1 203669 
дук GD едь icd 
根据 链 式 法 则 有 
д1п(р(1 | х)? 1 дра | x) 
Iyk РА |х) ду, 


结合 上 面 的 结果 ,可 以 得 到 目标 函数 对 神经 网 络 输出 值 的 偏 导数 。 这 样 ,根据 这 两 个 变 
量 既 可 以 在 正 向 传播 时 方便 地 计算 出 网 络 的 输出 ,又 可 以 在 反 向 传播 时 方便 地 计算 出 导 
数值 。 


16.4.3 ”序列 到 序列 学 习 


对 有 些 问题 ,输入 序列 的 长 度 和 输出 序列 不 一 定 相 等 ,而 且 我 们 事先 并 不 知道 输出 序列 
的 长 度 ,典型 的 是 语音 识别 和 机 器 翻译 问题 。 以 机 器 翻译 为 例 . 将 一 种 语言 的 句子 翻译 成 男 
外 一 种 语言 之 后 ,句子 的 长 度 即 包括 的 单词 数量 一 般 是 不 相等 的 。 以 英 译 汉 为 例 , 英 文句 子 
what's your name 是 3 个 单词 组 成 的 序列 ,翻译 成 中 文 为 “你 叫 什么 名 字 ”, 由 6 个 汉字 ( 包 
括 2 个 词 ) 组 成 。 标 准 的 RNN 没 法 处 理 这 种 输入 序列 和 输出 序列 长 度 不 相等 的 情况 ,解决 
这 类 问题 的 一 种 方法 是 序列 到 序列 学 习 技 术 。 

FE SJ Fr S В 2 2] 09 (Sequence to Sequence Learning. seq2seq) 是 用 循环 神经 网 络 构 
建 的 一 种 框架 , 它 能 实现 从 一 个 序列 到 另外 一 个 序列 的 映射 ,两 个 序列 的 长 度 可 以 不 相等 。 
seq2seq 框架 包括 两 部 分 ,分 别称 为 编码 器 和 解码 器 ,它们 都 是 循环 神经 网 络 。 这 里 要 完成 
的 是 从 一 个 序列 到 另外 一 个 序列 的 预测 : 

5... 一 Sas 
前 者 是 源 序列 ,后 者 是 目标 序列 ,两 个 序列 的 长 度 可 能 不 相等 。 
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在 卷 积 神经 网 络 中 ,我 们 也 有 类 似 的 思路 。 对 于 图 像 分 割 .边缘 检测 等 需要 对 每 个 像素 
进行 预测 的 任务 , 卷 积 网 络 的 前 半 部 分 是 编码 器 ,通过 多 个 卷 积 层 和 下 采样 层 得 到 图 像 的 特 
征 ;后 半 部 分 是 解码 器 ,用 反 卷 积 和 上 采样 层 对 编码 的 特征 进行 解码 ,得 到 预测 结果 。 在 这 
里 是 一 张 图 像 到 另 一 张 图 像 的 映射 : 

S>D 

前 者 是 源 图 像 , 后 者 是 目标 图 像 。 卷 积 网 络 在 这 里 根据 源 图 像 预 测 目标 图 像 。 循 环 神 
经 网 络 的 编码 器 -解码 器 框架 和 这 个 过 程 类 似 。 用 于 编码 器 的 网 络 接收 输入 序列 ха exo ,…， 
xT, 最 后 时 刻 工 产生 的 隐 含 层 状态 值 hr 作为 序列 的 编码 值 , 它 包 含 了 时 刻 1 一 了 工 输入 序列 
的 所 有 信息 ,在 这 里 我 们 将 其 简写 为 w ,这 是 一 个 固定 长 度 的 向 量 。 用 于 解码 的 网 络 以 w 和 
y; 拼接 起 来 作为 每 个 时 刻 的 输入 , 它 可 以 计算 目标 序列 ys ,ys，… ,yr 的 条 件 概 率 : 

bfsyeetmyr | xoxo XT) 


根据 循环 神经 网 络 的 输出 值 之 间 的 关系 ,这 个 概率 可 以 进一步 写成 


y 
POM yz syr | XisX2s xr) = П b. | Ver yon yis 
如 果 在 输出 层 使 用 softmax 函数 映射 ,就 可 以 得 到 上 面 每 一 个 时 刻 的 概率 。 实 现时 编 
码 器 和 解码 器 同时 训练 ,最 大 化 上 面 的 条 件 概率 。 在 这 里 训练 样本 是 成 对 的 序列 (4,B) , 训 
练 的 目标 是 让 序列 A 编码 之 后 解码 得 到 序列 B 的 概率 最 大 , 即 最 大 化 如 下 条 件 对 数 似 然 
Р: 


max, x; Dy Inpel {90} | Gn 


其 中 ,NN 是 训练 样本 数 ;9 为 要 求解 的 参数 。 输 入 序列 和 对 应 的 输出 序列 组 合 在 一 起 为 一 个 
训练 样本 。 

seq2seq 框架 有 两 种 用 法 。 第 一 种 用 法 是 为 输入 输出 序列 对 打分 , 即 计 算 条 件 概 率 值 : 

bin) | {х„}) 

第 二 种 用 法 是 根据 输入 序列 生成 对 应 的 输出 序列 ,由 于 seq2seq 只 有 计算 条 件 概 率 的 
功能 ,因此 ,需要 采用 搜索 技术 得 到 条 件 概 率 最 大 的 输出 序列 ,可 以 使 用 集束 搜索 技术 。 机 
器 翻译 问题 采用 的 是 第 二 种 用 法 ,在 后 面 的 小 节 中 将 详细 介绍 seq2seq 框架 提供 的 是 一 种 
预测 输出 序列 对 输入 序列 的 条 件 概 率 的 手段 。 

集束 搜索 通过 在 每 一 步 对 上 一 步 的 结果 进行 扩展 来 生成 最 优 解 。 在 每 一 步 ,选择 一 个 
词 添加 到 之 前 的 序列 中 ,形成 新 的 序列 ,并 只 保留 概率 最 大 的 & 个 序列 。 在 这 里 ,为 人 工 
设 定 的 参数 , 称 为 集束 宽度 。 

下 面 用 一 个 例子 来 说 明 集束 搜索 的 原理 。 假 设 词典 大 小 为 3, 包 含 的 词 为 fae,b,c}。 如 
果 集 东 搜 索 的 搜索 宽度 设置 为 2, 则 在 选择 第 一 个 词 的 时 候 ,寻找 概率 最 大 的 两 个 词 , 假 
BON: 

{a+b} 

接 下 来 ,生成 下 一 个 词 ,对 所 有 可 能 的 组 合 : 

{aa «ab «ac ,ba «bb .bc} 

保留 概率 最 大 的 2 个 ,假设 为 fap,20}。 接 下 来 在 此 基础 上 再 选择 第 三 个 词 ,以 此 类 推 。 
最 终 得 到 概率 最 大 的 完整 序列 作为 输出 。 
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循环 神经 网 络 被 成 功 地 应 用 于 各 类 时 间 序 列 数据 的 分 析 和 建 模 ,典型 的 包括 语音 识别 ， 
自然 语言 处 理 , 机 器 视觉 中 的 目标 跟踪 、 视 频 动作 识别 等 。 本 节 介绍 在 这 些 问题 上 的 应 用 。 


16.5.1 语音 识别 问题 


在 第 1 章 中 介绍 过 语音 识别 的 目标 是 将 声音 信号 转换 成 文字 。 一 般 做 法 是 将 声音 信号 
切 分 成 时 间 长 度 很 短 的 帧 (如 20ms) ,对 每 个 帧 计算 出 一 个 固定 长 度 的 特征 向 量 , 这 样 得 到 
一 个 向 量 序列 ,识别 出 的 文字 也 可 以 编码 成 一 个 向 量 序列 。 这 个 问题 可 以 抽象 为 从 一 个 向 
量 序列 到 另外 一 个 向 量 序列 的 预测 。 语 音 识 别 的 目标 是 求解 如 下 最 大 化 问题 : 
arg max,p (w | x) 
其 中 ,x 为 输入 的 语音 数据 ;w 为 识别 出 来 的 文字 序列 。 我 们 要 找到 给 定 的 声音 序列 所 对 应 
的 最 大 概率 的 文字 序列 。 根 据 贝 叶 斯 公式 有 


— b(x | w) p(w) 
pO | x) NGC 


分 母 部 分 是 一 个 常数 ,这 等 价 于 求解 下 面 的 问题 : 
arg maxwp (x | ж) p(w) 
目标 函数 的 第 一 部 分 是 从 给 定 的 文字 序列 生成 声音 信号 的 概率 , 称 为 声学 模型 
(Acoustic Model) , 即 每 个 单词 或 者 字 发 出 什么 样 的 声音 。 第 二 部 分 是 文字 序列 出 现 的 概 
率 , 它 由 语言 规则 控制 ,要 符合 语法 规则 ,与 声音 没有 关系 , 称 为 语言 模型 (Language 
Model) 。 以 汉语 为 例 ,同一 个 拼音 可 能 会 对 应 多 个 汉字 ( 即 存 在 同音 字 ) ,语言 模型 所 起 到 
的 作用 就 是 根据 拼音 序列 确定 出 文字 序列 。 
下 面 以 一 个 简单 的 句子 为 例 来 说 明 语音 识别 的 整个 过 程 ,在 这 里 只 考虑 最 主要 的 步 又 ， 
忽略 掉 细节 信息 以 便于 理解 。 假 设 要 识别 下 面 这 句 话 : 
我 是 中 国人 
首先 对 这 句 话 的 语音 信号 进行 分 帧 ,得 到 这 些 帧 的 特征 向 量 序列 。 接 下 来 用 声学 模型 
将 这 个 特征 向 量 序列 识别 成 声母 和 韵母 组 成 的 拼音 序列 : 
wo shi zhong guo ren 
这 通过 寻找 特征 向 量 序列 对 应 的 概率 最 大 的 拼音 序列 得 到 。 接 下 来 用 语言 模型 将 这 个 
拼音 序列 转化 成 最 终 的 文字 系列 : 
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语音 识别 





我 是 中 国人 

这 通过 寻找 拼音 序列 所 对 应 的 最 大 概率 的 文字 序列 得 到 。 

语音 识别 的 经 典 方法 是 GMM 十 HMM 框架 中 。 它 首先 对 声音 信号 进行 分 帧 ,每 帧 包 
含 一 段 很 短 时 间 的 语音 信号 ,这 些 帧 之 间 会 有 时 间 上 的 重 释 。 然 后 计算 这 段 信号 的 MFCC 
特征 ,根据 傅 里 叶 变换 的 系数 计算 得 到 ,一 般 为 12 维 。 这 样 一 段 语音 信号 被 变换 成 多 个 12 
维 的 特征 xs охо оох ,其 中 ,NN 为 帧 数 。 这 个 特征 向 量 序列 可 以 看 成 是 12 {т N 列 的 矩 
BE , 称 为 观测 序列 。 接 下 来 的 过 程 如 下 。 

СТ) 把 这 些 帧 识别 成 一 些 状态 ,得 到 一 个 状态 序列 ,状态 是 对 基本 发 音 的 切 分 。 
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(2) 将 若干 个 状态 组 合成 一 个 音素 ,得 到 一 个 音素 序列 。 

(3) 把 若干 个 音素 组 合成 单词 或 者 字 , 得 到 最 终 的 识别 结果 。 

音素 是 基本 的 发 音 单位 。 对 于 英语 ,是 39 个 音素 构成 的 音素 集 ; 对 于 汉语 ,是 声母 和 韵 
母 。 状 态 是 音素 的 进一步 切 分 , 即 一 个 音素 由 多 个 状态 组 成 。 声 学 模型 是 对 发 声 的 建 模 , 给 
出 了 语音 属于 某 个 声学 符号 的 概率 。 

语言 模型 的 作用 是 在 声学 模型 给 出 发 音 序列 之 后 ,从 候选 的 文字 序列 中 找 出 概率 最 大 
的 字符 串 序列 。 

由 帧 到 音素 的 转换 由 高 斯 混合 模型 和 隐 马 尔 可 夫 模 型 完成 。 通 过 高 斯 混合 模型 可 以 得 
到 帧 观测 概率 , 即 帧 属于 某 一 状态 的 概率 。 得 到 观测 概率 之 后 , 接 下 来 的 工作 由 隐 马 尔 可 夫 
模型 完成 , 即 由 观测 序列 得 到 状态 序列 。 下 面 介绍 隐 马 尔 可 夫 模 型 和 高 斯 混合 模型 的 原理 。 


1652 ” 隐 马 尔 可 夫 模 型 


隐 马 尔 可 夫 模 型 是 一 种 概率 图 模型 , 它 也 可 以 用 于 时 间 序 列 建 模 。 这 种 模型 可 以 计算 
出 一 个 系统 每 一 时 刻 处 于 各 种 状态 的 概率 以 及 这 些 状态 之 间 的 转移 概率 。 首 先 定义 状态 的 
概念 ,在 上 时刻 系 统 的 状态 为 ,这 是 一 个 离散 型 随机 变量 , 取 值 来 自 一 个 有 限 的 集合 : 
S = (siis) 
如 果 我 们 要 观察 每 一 天 的 天 气 ,天 气 的 状态 集合 为 
{晴天 ,了 明天 ,雨天 , 雪 天 } 
为 了 简化 表示 ,将 状态 用 整数 编号 ,这 样 可 以 写成 





{0.1.2,3} 
从 时 刻 1 开始 到 工时 刻 为 止 ,系统 所 有 时 刻 的 状态 值 构成 一 个 随机 变量 序列 : 
z = {zz zr) 


系统 在 不 同时 刻 可 以 处 于 同一 种 状态 ,但 在 任何 一 个 时 刻 系统 只 能 有 一 种 状态 。 不 同 
时 刻 的 状态 之 间 是 有 关系 的 ,例如 ,如 果 今 天 是 阴 天 ,明天 下 十 的 可 能 性 会 更 大 ,在 时 刻 上 的 
状态 由 它 之 前 时 刻 的 状态 决定 ,这 可 以 表示 为 如 下 的 条 件 概率 : 

plz | zn) 
即 在 从 1 到 :一 1 时 刻 系统 的 状态 值 分 别 为 = ,zs，,…,z,_1 的 前 提 下 ,时 刻 t 系统 的 状态 为 z, 
的 概率 。 注 意 ,这 里 是 离散 型 随机 变量 的 条 件 概率 。 如 果 要 考虑 之 前 所 有 的 状态 ,数学 模型 
太 复杂 。 因 此 做 了 一 个 简化 ,假设 + 时 刻 系统 的 状态 只 与 + 一 1 时 刻 系 统 的 状态 有 关 , 与 更 
早 的 时 刻 无 关 。 上 面 的 概率 可 以 简化 为 
plz | z-i zi) = plz, | zm) 

这 个 假设 称 为 一 阶 马尔 可 夫 假 设 ,满足 一 阶 马尔 可 夫 假 设 的 马尔 可 夫 模 型 称 为 一 阶 马 
尔 可 夫 模 型 。 如 果 状 态 的 取 值 及 种 可 能 .在 t 时刻 取 任 何 一 个 值 与 1 一 1 时 刻 取 任何 一 个 
值 的 条 件 概率 构成 一 个 nXn BJ E E A , 称 为 状态 转移 概率 矩阵 ,其 元 素 为 

a; = plz, = j lan = 1) 

这 个 矩阵 的 元 素 表 示 :一 1 时 刻 系统 的 状态 为 i、t 时 刻 系 统 的 状态 为 7 的 概率 , 即 从 状 
AS i 转移 到 状态 j 的 概率 。 如 果 知 道 了 每 一 时 刻 的 状态 转移 矩阵 ,就 可 以 计算 出 任意 时 刻 
系统 状态 取 每 个 值 的 概率 。 状 态 转移 矩阵 的 值 通过 训练 样本 学 习 。 

状态 转移 概率 矩阵 的 元 素 必 须 满足 如 下 约束 : 
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ag Z= 0 
a; = 1 
第 一 条 是 因为 概率 的 值 必须 为 [0， T з 条 是 因为 无 论 上 时 刻 的 状态 值 是 什么 ,在 下 
一 个 时 刻 一 定 会 转向 n 个 状态 中 的 一 个 ， 它们 的 转移 概率 和 必须 为 1。 另外 还 需要 为 


系统 指定 初始 状态 zo 二 so。 
给 定 一 阶 马尔 可 夫 过 程 的 参数 ,由 该 模型 产生 一 个 状态 序列 = ,zs,… ,zr 的 概率 为 
р(<\,®з,°°°›®т)= ре, | Sree Te plz | zy 
= plz | 2,1) Plz | z2) 


= la. 
结果 就 是 状态 转移 矩阵 的 元 素 乘 积 。 在 这 里 假设 任何 一 个 时 刻 的 状态 转移 矩阵 都 是 相 
同 的 , 即 状态 转移 矩阵 与 时 间 无 关 。 
状态 转移 矩阵 通过 训练 样本 学 习 得 到 ,训练 时 的 损失 函数 使 用 对 数 似 然 函 数 。 给 定 一 
个 状态 序列 >, 定 义 马 尔 可 夫 过 程 的 对 数 似 然 函数 为 
L(A)= Inp(z;A) 


T 
= In Has 

t=1 
T 
Уа, 
t=1 

n n T 

= Ð D Dz =i Az = Ја; 


i=l j=l :=1 


因为 状态 转移 矩阵 要 满足 上 面 的 两 条 约束 ,因此 ,要 求解 的 是 如 下 带 约束 的 最 优化 
问题 : 


maxaL (A) 


Day =1, i= lbn 
j=l 


ag 20. ij = 1.2. 
由 于 对 数 函 数 的 定义 域 也 要 求 自 变 量 大 于 0, 因此 可 以 去 掉 不 等 式 约束 ,上 面 的 最 优化 
问题 是 一 个 带 等 式 约束 的 优化 问题 ,可 以 用 拉 格 朗 日 乘 数 法 求解 。 构 造 拉 格 衣 日 函数 ， 


La) m Y! 3 Hine + аа-а) 


i-1 j=1 :=1 


对 as 求 偏 导数 并 令 导 数 为 0, 可 以 得 到 
Ls =ї Л =, = j) 


a; 








解 得 





а 





ü Удаа Ла) 
对 a; 求 偏 导数 并 令 导 数 为 0, 可 以 得 到 
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n T 
1-31 Xia ci As jp =0 
jc 


i t= 


i Sy, = 6 
j=l 


解 得 








D 1 fea = i) 
这 也 符合 直观 的 解释 : 从 状态 i 转移 到 状态 j 的 概率 估计 值 , 就 是 在 训练 样本 中 从 状态 
i 转移 到 状态 j 的 次 数 除 以 从 状态 i 转移 到 下 一 个 状态 的 总 次 数 。 
在 实际 应 用 中 ,有 时 不 能 直接 得 到 状态 的 值 。 这 种 应 用 场景 下 ,状态 的 值 是 隐 含 的 ,只 
能 得 到 观测 的 值 。 为 此 对 马尔 可 夫 模 型 进行 扩充 ,得 到 隐 马 尔 可 夫 模 型 。 
隐 马 尔 可 夫 模 型 (Hidden Markov Model, HMM) 描 述 了 观测 变量 和 状态 变量 之 间 的 概 
率 关 系 。 与 马尔 可 夫 过 程 相 比 , 隐 马 尔 可 夫 模 型 不 仅 对 状态 进行 建 模 ,而 且 对 观测 值 进 行 建 
模 。 不 同时 刻 的 状态 值 之 间 ,同一 时 刻 的 状态 值 和 观测 值 之 间 ,都 存在 概率 关系 。 
首先 定义 观测 序列 
x = {ziyzz，ZT} 
这 是 我 们 直接 能 观察 或 者 计算 得 到 的 值 。 任 一 时 刻 的 观测 值 来 自 一 个 有 限 的 集合 : 
= {wv + Um} 
接 下 来 定义 状态 序列 
z = {z1-220 er} 
任 一 时 刻 的 状态 值 也 来 自 一 个 有 限 的 集合 : 
S = {8982000 95a} 
如 果 我 们 要 识别 视频 中 的 动作 , 则 状态 就 是 要 识别 的 动作 ,如 站 立 、 坐 下 ,观测 就 是 我 们 
能 直接 得 到 的 值 ( 如 人 体 各 个 关节 点 的 坐标 ) 。 除 了 之 前 的 状态 转移 矩阵 ,还 定义 如 下 观测 
Ж: B, 其 元 素 为 
by = pw | š) 
其 元 素 表示 状态 值 为 % 时 观测 值 为 wv 的 概率 。 显 然 该 矩阵 也 要 满足 和 状态 转移 矩阵 同样 
WAR ATE: 
= 0 
3-4 
另外 还 要 给 出 初始 时 状态 取 每 种 值 的 概率 z, 这 样 隐 马 尔 可 夫 模型 可 以 表示 为 一 个 五 
元 组 : 
(S.V.m.A.B) 
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在 实际 应 用 中 ,一 般 假 设 矩 阵 4 和 B 在 任何 时 刻 都 是 一 样 的 , 即 与 时 间 无 关 ,这 样 简 化 
了 问题 的 计算 。 

在 隐 马 尔 可 夫 模型 中 ,隐藏 状态 和 观测 值 的 数量 是 人 工 设 定 的 ,根据 实际 问题 而 定 ; 状 
态 转移 矩阵 和 混淆 矩阵 通过 样本 学 习 得 到 。 隐 马尔 可 夫 模型 需要 解决 以 下 3 个 问题 。 

(1) 估 值 问题 ,给 定 隐 马 尔 可 夫 模 型 的 参数 ,计算 一 个 观测 序列 出 现 的 概率 值 。 

(2) 解码 问题 ,给 定 隐 马 尔 可 夫 模 型 的 参数 以 及 一 个 观测 序列 ,计算 最 有 可 能 产生 此 观 
测序 列 的 状态 序列 。 这 是 应 用 中 最 常见 的 问题 。 

(3) 学 习 问题 ,给 定 隐 马 尔 可 夫 模 型 的 结构 ,但 参数 未 知 , 给 定 一 组 训练 样本 ,确定 隐 马 
尔 可 夫 模 型 的 参数 。 

下 面 分 别 介绍 这 3 个 问题 的 解决 方案 。 估 值 问题 需要 计算 隐 马 尔 可 夫 模型 产生 一 个 观 
测序 列 z= {zivza,…,zr} 的 概率 ,根据 全 概率 公式 , 它 可 以 通过 下 式 计算 ， 

р(х) = Dip (a | z)b (z) 

上 式 的 含义 是 列举 所 有 可 能 的 状态 序列 ,以 及 该 状态 序列 产生 此 观测 序列 的 概率 ,要 对 
пт 项 求 和 。 因 为 每 一 时 刻 的 状态 取 值 有 种 可 能 ,因此 ,长 度 为 的 状态 序列 总 共有 n7 种 
可 能 。 

由 于 隐 马 尔 可 夫 模 型 满足 一 阶 马尔 可 夫 假 设 , 因 此 ,可 以 做 下 面 的 简化 ,任意 一 个 状态 
序列 出 现 的 概率 为 


pie) = [D »6 12-0 
由 于 每 一 时 刻 的 观测 值 只 依赖 于 本 时 刻 的 状态 值 , 因 此 有 


р(х | ғ) = П р(х, | z) 
产生 一 个 观测 序列 的 概率 可 以 简化 为 


pa) = >; ID »( | zd pe | 20 = >) IL uas 

直接 计算 这 个 值 的 成 本 太 高 .时 间 复 杂 度 是 O(n"T)。 使 用 动态 规划 的 递归 策略 ,问题 
可 以 简化 。 显 然 , 如 果 按 照 上 面 的 公式 会 有 很 多 重复 计算 。 

例如 ,要 计算 产生 观测 序列 (zi,zz,…'zs) 的 概率 ,产生 它 的 状态 序列 为 (= ze tne 
25) ,假设 状态 取 值 有 3 种 情况 。 无 论 zs 取 什么 值 , 为 了 计算 整个 序列 出 现 的 概率 ,任何 一 
个 长 度 为 4 的 子 序列 (zi ,zs,…,z4) 产 生 观 测 子 序列 (zi ,xs，… ,zs) 的 概率 都 要 被 重复 计算 
3 次 。 

假设 已 经 计算 出 长 度 为 1 的 观测 序列 的 概率 ,现在 要 计算 长 度 为 /十 1 的 观测 序列 的 概 
率 。 如 果 状 态 的 取 值 有 种 可 能 , 则 z+1 的 取 值 就 有 种 可 能 。 定 义 变量 

ai(t) = p (xiszo xz, = i) 

这 个 变量 是 到 时 刻 1 为 止 的 观测 序列 ,产生 它 的 状态 序列 中 ,最 后 一 个 状态 为 i, 即 zx, 二 

i 的 概率 。 这 样 就 有 


р(х) = р(хү.х srr) = D pa ,Tv Tr zr = i) = У\а Т) 
i=l i=1 
还 可 以 得 到 这 个 变量 的 递归 计算 公式 为 
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ауа = bm Dagba ј = bn = 1.2.57 
i=l 
由 此 得 到 计算 观测 序列 概率 的 高 效 算法 。 


初始 化 w (0) Sao: i=1,2, on 
循环 ,对 t 一 1,2，…，, 工 
循环 ,对 j—1.2. sn 


Жн Жаа) = Dat Dajb;, 
i=l 
р(х) = >a lT) 
i=1 


显然 上 面 算法 的 时 间 复 杂 度 为 OG T) ,这 比 之 前 大 为 减少 。 这 个 算法 称 为 前 向 算法 ， 
类 似 地 ,也 可 以 实现 后 向 算法 ,和 前 向 算法 一 样 ,可 以 定义 变量 p. 

解码 问题 是 已 知 一 个 观测 序列 ,寻找 出 最 有 可 能 产生 它 的 状态 序列 ,这 是 实际 应 用 时 最 
常见 的 问题 。 根 据 贝 叶 斯 公式 ,解码 问题 可 以 形式 化 地 定义 为 如 下 最 大 后 验 概率 问题 : 
pz) ariak: bz) 

р(х) SM paz) 

这 和 贝 叶 斯 分 类 器 类 似 , 忽 略 掉 分 母 。 贝 叶 斯 分 类 器 是 已 知 特征 向 量 计算 后 验 概率 ,这 
里 是 已 知 观测 序列 反 算 状 态 序 列 的 条 件 概 率 。 

最 简单 的 方法 是 列举 所 有 可 能 的 状态 序列 ,然后 计算 它们 产生 该 观测 序列 的 概率 , 找 出 
概率 最 大 的 那个 。 但 这 是 没有 必要 的 ,通过 动态 规划 的 思想 ,可 以 高 效 地 解决 此 问题 。 动 态 
规划 的 核心 结论 : 要 保证 一 个 解 是 全 局 最 优 解 ,其 部 分 解 也 必须 是 最 优 的 。 根 据 这 一 结论 ， 
可 以 得 到 经 典 的 维特 比 (Viterbi) 算 法 。 

要 保证 рач оло о "е ота охо yxr) 的 概率 最 大 ,就 需要 保证 (zz ，…zriizi， 
xzT-1) 的 概率 最 大 ,这 相当 于 寻找 一 条 产生 最 大 概率 的 路 径 , 这 条 路 径 对 应 一 个 状态 
序列 。 这 与 前 面 的 前 向 算法 类 似 , 只 要 把 求 和 换 成 求 最 大 值 就 可 以 了 。 

动态 规划 求解 最 优 路 径 时 ,一 个 要 满足 的 条 件 是 如 果 整 体 路 径 是 最 优 的 ,那么 子路 径 也 
是 最 优 的 。 假 设 概率 最 大 的 路 径 是 (= ооо оет) Е Е 时刻 经 过 的 节点 为 =, 路 径 序列 
zy ett eee 必须 是 最 优 的 。 假 设 它 不 是 最 优 的 , 则 存在 另外 一 个 序列 z;,… ,zr 的 概率 值 更 
大 ,这 与 (zi ,zs，… ,zr) 是 最 优 解 矛 盾 。 

基于 这 个 思想 ,可 以 从 1 时 刻 开始 , 递 推 地 计算 t 时 刻 的 状态 x, 二 i 的 子 序列 的 最 大 概 
率 路 径 ,最 后 就 可 以 得 到 整个 问题 的 最 优 解 。 定 义 下 面 两 个 变量 : 

a(i) = тах, ense РС = iZi o" oZz oZ sZ, Tzi) і = 1,2+=*,Т 
即 产生 观测 序列 (zi ,zs，,… ол) AY TAL AR SE P Gn ez t m0 Фе 时 刻 的 状态 z, =i 的 概 
率 的 最 大 值 。 它 可 以 递 推 地 计算 : 
a(i) = max; lam aba), j= 1.2, = 2e T 
最 后 可 以 得 到 产生 观测 序列 的 最 大 概率 为 
maxiaT(z) 


上 面 的 定义 只 能 得 到 最 大 概率 ,但 我 们 要 求 得 到 这 个 最 大 概率 的 状态 序列 ,为 此 ,定义 








arg max.p(z | т) = arg max, argmax.p (х.х) 
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BG) = arg maxja, (ag, i= 1,2,--,n; j = 1.25050 
即 t 时 刻 的 状态 x, 二 i 的 概率 最 大 的 状态 序列 中 ,t 一 1 时 刻 的 状态 值 。 有 了 这 两 个 变量 ,就 
可 以 得 到 维特 比 算法 的 流程 。 


初始 化 ,al (i) — mib, i=],2,° n, B (i)=0,i=1,2,° ,nn 
循环 ,对 t= 二 1,2,…,TT 
循环 ,对 i 二 1,2,…,n 
计算 w Ci) = max; Cari Gajba, ) 
+H B.D) —arg maxja,-i (j ag 
4 3B) Ж ЖЛЕ p, Prox = maxiar (i) .2т = arg maxiar(i) 
反 向 回溯 ,循环 ,对 上 一 T 一 1,…,2,1 
计算 z =P (ze) 
结束 


在 算法 实现 时 ,需要 存储 所 有 的 及 (Ci) ,而 只 用 存储 当前 步 的 а, Ci) 。 这 个 算法 的 时 间 复 
杂 度 为 O(nT)。 

隐 马 尔 可 夫 模 型 的 训练 问题 是 给 定 一 组 观测 样本 ,得 到 状态 转移 概率 矩阵 和 观测 矩阵 ， 
目标 是 状态 转移 概率 矩阵 和 观测 矩阵 能 很 好 地 解释 这 组 样本 , 即 最 大 化 对 数 似 然 函 数 。 训 
练 通过 EM 算法 (EM 算法 的 原理 将 在 第 18 章 中 讲述 ) 实 现 , 它 确保 给 定 的 参数 能 让 样本 产 
生 的 概率 最 大 。 根 据 EM 算法 可 以 推导 出 解决 隐 马 尔 可 夫 模 型 训练 问题 的 前 向 -后 向 算法 
( 即 Baum-Welch 算法 )。 


下 面 变量 : 


用 随机 数 初 始 化 矩阵 A fo B 的 元 素 , 注 意 要 满足 矩阵 元 素 的 约束 条 件 
循环 ,直到 收敛: 
已 步 ,循环 ,根据 当前 参数 值 用 前 向 算法 和 后 向 算法 计算 w 和 ,然后 计算 
Nj) = aiCOasb B; (t+ 1) 





M 步 ,更 新 参数 的 值 ; 
T 
DED 
а x 
Na. 
j=l =1 
T 
SD 1 {zx = krij) 
be I =1 c T 
Dra j) 
=] #=1 
结束 循环 


这 与 反 向 传播 算法 类 似 , 先 给 出 参数 的 估计 值 , 然 后 用 此 参数 计算 预测 结果 ,然后 反 过 
来 更 新 参数 值 。 正 向 传播 时 可 以 计算 出 产生 观测 序列 的 概率 , 反 向 传播 时 再 用 这 个 概率 来 
更 新 参数 。 
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1653 ”高 斯 混合 模型 


高 斯 混合 模型 (Gaussian Mixture Model,GMM) 通 过 多 个 正 态 分 布 (高 斯 分 布 ) 的 加 权 
和 来 描述 一 个 随机 变量 的 概率 分 布 ,概率 密度 函数 定义 为 


k 
рО) = MwiNiGiu E) 
i=1 


其 中 ,x 为 随机 向 量 ;k 为 高 斯 分 布 的 数量 ;rw; 为 高 斯 分 布 的 权重 ,是 一 个 正 数 ;4 为 高 斯 分 
布 的 均值 向 量 ; 马 为 协 方差 矩阵 。 所 有 高 斯 分 布 的 权重 之 和 为 1, 即 


>; w = 1 

任意 一 个 样本 可 以 看 作 是 先 从 & 个 高 斯 分 布 中 选择 出 一 个 ,选择 第 i 个 高 斯 分 布 的 概 
率 为 w;, 再 由 第 i 个 高 斯 分 布 N(x,pi, 台 ) 产 生出 这 个 样本 数据 oT ВО n] PUB E 
任何 一 个 连续 的 概率 分 布 , 因 此 , 它 可 以 看 作 是 连续 型 概率 分 布 的 万 能 逼近 器 。 之 所 以 要 保 
证 权重 的 和 为 1, 是 因为 概率 密度 函数 必须 满足 在 (一 ,十 吕 ) 内 的 积分 值 为 1 。 

高 斯 分 布 的 参数 .权重 通过 训练 算法 得 到 。 指 定 高 斯 分 布 的 数量 ,给 定 一 组 训练 样本 ， 
可 以 通过 期 望 最 大 化 算法 (EM 算法 ) 确 定 高 斯 混合 模型 的 参数 。 由 于 每 个 样本 属于 哪个 高 
斯 分 布 是 未 知 的 ,而 计算 高 斯 分 布 的 参数 时 需要 用 到 这 个 信息 ; 反 过 来 ,样本 属于 哪个 高 斯 
分 布 又 是 由 高 斯 分 布 的 参数 确定 的 。 因 此 存在 循环 依赖 ,解决 此 问题 的 办 法 是 打破 此 循环 
依赖 ,从 高 斯 分 布 的 一 个 不 准确 的 初始 猜测 值 开始 ,计算 样本 属于 每 个 高 斯 分 布 的 概率 , 然 
后 又 根据 这 个 概率 更 新 每 个 高 斯 分 布 的 参数 。 

从 另外 一 个 角度 看 ,高 斯 混合 模型 的 对 数 似 然 函数 为 


У (омс) 
FP RT PR BOP AT k 个 求 和 项 ,以 及 参数 w; 的 存在 ,无 法 像 单个 高 斯 模型 那样 通过 最 
大 似 然 估计 求 得 公式 解 。 
EM 算法 每 次 迭代 时 ,在 下 步 计算 每 个 样本 属于 每 个 高 斯 分 布 的 概率 值 ,在 M 步 计算 
高 斯 分 布 的 均值 . 协 方差 ,以 及 权重 系数 ,如 此 循环 交替 直至 收 剑 。 给 定 /个 训练 样本 x;， 
i 一 1,2,…，, ,训练 算法 的 流程 如 下 : 


循环 ,直至 收敛 
EE 步 ,根据 当前 的 参数 估计 值 计算 每 个 样本 属于 每 个 高 斯 分 布 的 概率 值 : 
wN; (xp; ,D5;) 
Sow N Git, E, 
其 中 ,yi 为 i 个 样本 属于 第 j 个 高 斯 分 布 的 概率 。 
M 步 ,更 新 每 个 高 斯 分 布 的 参数 值 , 以 及 高 斯 分 布 的 权重 系数 : 


»= 
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£ 
27 Ys GG — ру) (x; — pT 
i=l 








结束 循环 
EM 算法 只 能 保证 收敛 到 局 部 最 优 解 ,算法 的 推导 在 第 18 章 讲述 。 
16.5.4 GMM-HMM 框架 


在 语音 识别 的 GMM-HMM 框架 中 ,高 斯 混合 模型 给 出 隐 马 尔 可 夫 模 型 的 观测 概率 ， 
即 每 个 音频 帧 属于 某 一 状态 的 概率 , 隐 马 尔 可 夫 模型 给 出 状态 之 间 的 转移 概率 。 给 定 观 测 
序列 ,概率 最 大 的 状态 序列 就 是 识别 的 结果 ,这 是 隐 马 尔 可 夫 模型 的 解码 问题 。 


1655 深度 模型 


深度 学 习 最 早 应 用 于 语音 识别 问题 时 的 作用 是 蔡 代 GMM-HMM 框架 中 的 高 斯 混合 
模型 ,负责 声学 模型 的 建 模 , 即 DNN-HMM 结构 。 在 这 种 结构 2 里 ,深层 神经 网 络 ( 如 玻 
尔 兹 曼 机 、 卷 积 神经 网 络 ) 负 责 计 算 音频 帧 属于 某 一 声学 状态 的 概率 或 者 是 提取 出 声音 的 特 
征 ,其 余 的 部 分 和 GMM-HMM 结构 相同 。 

语音 识别 的 困难 之 处 在 于 输入 语音 信号 序列 中 每 个 发 音 单元 的 起 始 位置 和 终止 位 置 是 
未 知 的 , 即 不 知道 输出 序列 和 输入 序列 之 间 的 对 齐 关 系 , 这 属于 之 前 介绍 的 时 序 分 类 问题 。 

深度 学 习 技 术 在 语音 识别 里 一 个 有 影响 力 的 成 果 是 循环 神经 网 络 和 CTC 的 结合 ,与 卷 
积 神经 网 络 .自动 编码 器 等 相 比 ,循环 神经 网 络 具有 可 以 接收 不 固定 长 度 的 序列 数据 作为 输 
入 的 优势 ,而 且 具 有 记忆 功能 。 文 献 [13] 将 CTC 技术 用 于 语音 识别 问题 。 语 音 识别 中 , 识 
别 出 的 字符 序列 或 者 音素 序列 长 度 一 定 不 大 于 输入 的 特征 帧 序列 。CTC 在 标注 符号 集中 
加 上 空白 符号 blank, 然 后 利用 循环 神经 网 络 进行 标注 ,再 把 blank 符号 和 预测 出 的 重复 符 
号 消除 。 

假设 x 为 语音 输入 序列 ,1 为 识别 出 来 的 文字 序列 ,x 为 循环 神经 网 络 的 输出 。 可 能 有 
多 个 连续 帧 对 应 一 个 文字 ,有 些 帧 可 能 没有 任何 输出 ,按照 之 前 介绍 的 СТС 原理 ,用 多 对 一 
的 函数 B 把 输出 序列 中 重复 的 字符 进行 合并 ,形成 一 个 唯一 的 序列 : 

pal» >) р(л|х) 


z€ B o 
其 中 ,1 为 文字 序列 ;x 是 带 有 元 余 的 循环 神经 网 络 输出 ;映射 函数 B 将 神经 网 络 的 输出 序 
列 z 映射 成 文字 序列 1。 分 类 器 的 输出 为 对 输入 序列 最 可 能 的 标签 值 : 
h(x) = arg maxier<rp (l | x) 
解码 时 采用 的 是 前 绥 搜 索 技 术 , 在 之 前 已 经 介绍 过 。CTC 在 这 里 起 到 对 齐 的 作用 ,最 
显著 的 优势 是 实现 了 端 到 端的 学 习 , 无 须 人 工 对 语音 序列 进行 分 割 ,这 样 做 还 带 来 了 精度 上 
的 提升 。 
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在 实现 时 循环 神经 网 络 采用 了 双向 LSTM 网 络 ,简称 BLSTM。 训 练 样本 集 的 音频 数 
据 被 切 分 成 10ms 的 帧 ,其 中 相 邻 帧 之 间 有 5ms 的 重 又 ,使 用 MFCC 特征 作为 循环 神经 网 
络 的 输入 向 量 。 原 始 音 频 信 号 被 转换 成 一 个 MFCC 向 量 序列 。 特 征 向 量 为 26 维 , 包 括 对 
数 能 量 和 一 阶 导 数值 。 向 量 的 每 一 个 分 量 都 进行 了 归 一 化 。 

解码 时 ,使 用 最 优 路 径 和 前 级 搜索 解码 ,这 在 之 前 已 经 讲 过 ,不 再 重复 介绍 。 解 码 的 结 
果 就 是 语音 识别 要 得 到 的 标记 序列 。 

文献 L[13] 中 的 循环 神经 网 络 是 一 个 浅 层 的 网 络 ,文献 [14] 提 出 一 种 用 深度 双向 LSTM 
网 络 和 CTC 框架 进行 语音 识别 的 方法 ,这 种 方法 主要 的 改进 是 使 用 了 多 个 双向 LSTM 层 ， 
称 为 深度 LSTM 网 络 。 双 向 循环 神经 网 络 的 原理 在 16. 3. 4 节 已 经 介绍 过 。 

双向 深度 循环 神经 网 络 采用 两 套 隐 含 层 ,分 别 正 向 \ 反 向 对 输入 序列 进行 处 理 , 并 把 最 
后 一 个 隐 含 层 的 输出 值 合 并 之 后 送 到 输出 层 。 对 于 深度 双向 LSTM 网 络 ,原理 类 似 , 只 是 
把 隐 含 层 的 变换 换 成 LSTM 结构 的 公式 ,在 这 里 不 再 详细 介绍 。 

假设 输入 的 声学 序列 数据 为 x, 输 出 音素 序列 为 y。 第 一 步 是 给 定 输入 序列 和 所 有 可 能 
的 输出 序列 ,用 循环 神经 网 络 计算 出 条 件 概率 值 p(y |x)。 训 练 时 的 样本 为 输入 序列 以 及 
对 应 的 输出 序列 。 训 练 时 的 损失 函数 为 对 数 似 然 函数 : 

L =—Inp( | x) 

这 里 使 用 CTC 来 对 序列 z 进行 分 类 ,对 于 一 段 输入 的 语音 数据 ,分 类 的 结果 是 一 个 音 
素 序列 。 假 设 有 上 个 音素 ,再 加 上 一 个 空白 符 , 是 一 个 k 十 1 类 的 分 类 问题 。 循 环 神经 网 络 
的 最 后 一 层 为 softmax 层 , 输 出 & 十 1 个 概率 值 .在 时 刻 t 输 出 值 为 p(y 1D. 

神经 网 络 在 每 一 个 时 刻 确定 是 输出 一 个 音素 ,还 是 输出 空白 符 。 将 所 有 时 刻 的 输出 值 
合并 在 一 起 ,得 到 了 一 个 输入 和 输出 序列 的 对 齐 方 案 。CTC 对 所 有 的 对 齐 方 式 进行 概率 求 
和 得 到 pz |x)。 在 使 用 CTC 时 ,循环 神经 网 络 被 设计 成 双向 的 ,这 样 每 个 时 刻 的 概率 输出 
值 为 

y, = Wis, hr + Wish? + b, 
MIPE = El 
Depp 
其 中 ,NN 是 隐 含 层 的 数量 ;y 是 神经 网 络 的 输出 向 量 。 上 式 用 softmax 映射 根据 神经 网 络 的 
输出 向 量 得 到 每 一 个 音素 的 概率 值 。 

前 面 介 绍 的 CTC 框架 输入 是 声学 数据 ,输出 是 音素 数据 ,只 是 一 个 声学 模型 。 接 下 来 
还 需要 将 音素 序列 转化 成 最 终 的 文字 序列 作为 识别 结果 ,需要 一 个 语言 模型 。 在 这 里 采用 
RNN transducer, 这 是 一 种 集成 了 声学 建 模 CTC 和 语言 模型 RNN 的 方法 ,后 者 负责 将 音 
素 转化 成 文字 ,二 者 联合 起 来 训练 得 到 模型 ,我 们 称 第 一 个 网 络 为 CTC 网 络 ,第 二 个 网 络 为 
预测 网 络 。 

假设 总 RUN 为 CTC 网 络 最 后 一 个 CTC 最 后 一 个 隐 含 层 的 前 向 和 后 向 输出 序列 ,p 为 
预测 网 络 的 隐 含 层 输出 序列 。 在 每 个 时 刻 т. 为 输出 网 络 , 它 包含 一 个 线性 层 ,接收 输入 六 
RN ,产生 输出 向 量 .另外 还 包含 一 个 tanh 隐 含 层 , 接 收 输入 值 L 和 p,. 产 生 输出 值 os 
最 后 将 hu AŽ А0 softmax 层 得 到 概率 值 p(k 1t. 

RNN transducer 只 是 给 出 了 任何 一 个 输出 序列 相对 于 输入 序列 的 条 件 概 率 值 ,还 需要 
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解码 算法 得 到 概率 最 大 的 输出 序列 。 在 这 里 使 用 了 集束 搜索 算法 ,算法 给 出 个 最 优 的 候 
选 结果 ,选择 的 依据 是 概率 值 pki). 

整个 系统 的 输入 数据 是 对 音频 数据 进行 分 帧 后 的 编码 向 量 ,具体 做 法 是 对 分 帧 后 的 音 
频数 据 进行 传 里 叶 变换 ,然后 用 变换 系数 构造 特征 向 量 , 整 个 向 量 进行 了 归 一 化 。 在 这 里 使 
用 了 61 个 音素 ,它们 被 映射 为 39 个 类 。 实 验 结果 证 明 , 更 深 的 网 络 具有 更 高 的 准确 率 , 双 
向 LSTM 比 单 向 网 络 也 有 更 高 的 精度 。 

前 面 的 方法 分 别 建立 了 声学 模型 和 语言 模型 ,二 者 是 分 离 的 。 文 献 [15] 提 出 一 种 直接 
将 声音 数据 转换 成 文字 的 算法 ,不 需要 中 间 的 发 音 表示 环节 ,实现 了 完全 端 到 端的 语音 识 
别 。 这 个 框架 使 用 了 深度 双向 LSTM 循环 神经 网 络 和 CTC 分 类 器 ,整个 系统 融合 的 声学 
模型 与 语言 模型 。 另 外 还 采用 了 一 种 新 型 的 损失 函数 , 称 为 arbitrary transcription 损失 
函数 。 

算法 的 输入 是 声音 数据 ,输出 直接 是 文字 序列 。 首 先 , 将 声音 数据 送 入 深度 双向 
LSTM 网 络 中 进行 处 理 , 然 后 再 送 入 CTC 输出 层 。 这 里 的 深度 双向 LSTM 网 络 和 文献 
[12] 的 相同 ,不 同 的 是 它 和 CTC 层 直接 用 文字 作为 标注 信息 训练 得 到 ,而 不 需要 音素 信息 。 
CTC 层 的 计算 方式 、 训 练 方式 和 文献 [14] 中 的 相同 。 不 同 的 是 这 里 采用 了 新 的 损失 函数 ， 
直接 优化 词 错误 率 。 

假设 输入 序列 为 x, 循 环 神经 网 络 的 输出 序列 为 y, 经 过 softmax 变换 之 后 , 它 是 1 时刻 
的 输出 标签 属于 某 一 标签 & 的 概率 值 : 





(k, у= exp(y:) 
fee exp yi) 

CTC 的 对 齐 结果 是 一 个 长 度 为 了 的 序列 ,可 能 包含 空白 符号 。 整 个 序列 对 输入 序列 
的 条 件 概 率 值 为 各 个 时 刻 的 标签 概率 值 的 乘积 ， 
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通过 映射 函数 В 的 作用 ,序列 a 最 终 被 转化 为 输出 序列 ?。 输 出 序列 对 输入 序列 的 条 
件 概率 为 


px) 一 У) alo 


标准 的 CTC 在 训练 时 优化 的 目标 是 上 商 这 个 概率 的 对 数 似 然 函 数 。 在 本 文 提出 的 方 
法 中 ,并 没有 采用 这 种 损失 函数 ,而 是 使 用 了 一 种 称 为 arbitrary transcription 的 损失 函数 。 
条 件 概率 p(y |x) 由 CTC 给 出 ,L(x,y) 是 一 个 实 值 损失 函数 ,定义 损失 函数 为 
L(x) = Meg | L(x, y) 
CEG ACGME DME Ex LR FSR PEER GE: IIE HB EAL 
损失 函数 的 计算 公式 为 
1‹х)= У) У) рса | x)L(x,y) 
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= Dpla | x)L(x,B(a)) 
采用 蒙特 卡 洛 算法 的 近似 计算 公式 为 
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偏 导数 值 的 计算 同样 采用 了 采样 技术 。 解 码 可 以 使 用 如 下 近似 值 : 
arg max,p(y | x) ~ B(arg max,p(a | x)) 

也 可 以 使 用 集束 搜索 技术 。 循 环 神经 网 络 和 CTC 同时 训练 ,输出 序列 为 英文 字符 序 
列 ,输出 字符 的 取 值 包含 43 种 情况 ,其 中 包括 大 写字 母 ,标点 符号 ,以 及 空格 符号 ,用 来 分 隔 
相 邻 的 单词 。 输 入 序列 为 谱 数 据 ,对 原始 的 音频 数据 计算 得 到 ,每 一 帧 的 向 量 维 数 为 128。 

文献 [23] 提 出 了 一 种 融合 了 卷 积 神经 网 络 和 循环 神经 网 络 的 英语 与 汉语 普通 话语 音 识 
别 算法 。 这 也 是 一 种 完全 端 到 端的 方法 ,所 有 人 工 工 程 的 部 分 都 用 神经 网 络 蔡 代 ,可 以 处 理 
各 种 情况 ,包括 噪声 .各 种 语言 。 

整个 系统 的 输入 为 音频 数据 ,使 用 20ms 的 窗口 对 原始 音频 数据 分 帧 ,然后 计算 对 数 
谱 , 对 功率 进行 归 一 化 形成 序列 数据 , 送 入 神经 网 络 中 处 理 。 首 先是 1D 或 者 2D 卷 积 层 , 然 
后 是 双向 RNN , 接 下 来 全 力 连接 的 lookahead 卷 积 层 ,最 后 是 CTC 分 类 器 。 整 个 模型 也 实 
现 了 端 到 端的 训练 。 

在 每 个 时 刻 上 神经 网 络 的 输出 值 为 p (i,|x)。 其 中 ,1, 为 字母 表 中 的 符号 或 者 是 空格 。 
对 于 英文 为 

{a,b.c,***,z,space,apotrophe, blank} 
其 中 ,space 为 词 之 间 的 边界 。 对 于 中 文 输出 值 为 简化 的 汉字 字符 。 识 别 时 СТС 模型 和 语 
言 模型 结合 起 来 使 用 。 解 码 时 使 用 集束 搜索 算法 寻找 输出 序列 y. 最 大 化 如 下 函数 : 
In( pryn Cy | x)) + aln(prm CY) + (у) 

第 一 部 分 为 КММ 的 损失 函数 ;第 二 部 分 为 语言 模型 的 损失 函数 ;第 三 部 分 对 英文 为 单 
词 数 ,对 汉语 为 字数 ,a 和 8B 为 人 工 设 定 的 权重 参数 。 

网 络 的 最 前 端 是 卷 积 层 , 对 输入 的 频谱 向 量 执 行 一 维 或 者 二 维 卷 积 。 实 验 结果 证 明 二 
维 卷 积 有 更 好 的 效果 。 

整个 网 络 包含 多 个 循环 层 ,循环 层 还 使 用 了 批量 归 一 化 技术 , 它 可 以 作用 于 前 一 层 和 本 
层 上 一 时 刻 状态 值 的 线性 加 权 和 .也 可 以 只 作用 于 前 一 层 的 输入 值 。 

在 所 有 循环 层 之 前 ,加 上 了 lookahead 卷 积 层 .计算 公式 为 


т+1 
т. = х Wika Са 


其 中 ,4 为 前 一 层 神经 元 数 ;h 是 前 一 层 的 输出 值 是 一 个 &X CED AEE W 是 4 Xz 的 权 
ЖЕ 为 时 间 步 长 。 限 于 篇 幅 ,本 书 只 介绍 几 种 具有 代表 性 的 算法 ,更 多 的 算法 可 以 阅 
读 参 考 文献 [24-33] 。 


16.6 ”应 用 一 一 自然 语言 处 理 


在 第 14 章 中 已 经 列举 出 了 深度 学 习 技术 在 自然 语言 处 理 领域 中 的 应 用 。 本 节 中 我 们 
将 详细 介绍 循环 神经 网 络 解决 这 些 重 要 问题 的 典型 方法 。 

在 自然 语言 处 理 领域 ,循环 神经 网 络 的 输入 向 量 是 编码 的 词 向 量 , 如 对 单词 的 one-hot 
编码 ,特征 向 量 的 维 数 等 于 词典 的 大 小 。 处 理 过 程 : 每 次 送 入 一 个 向 量 , 得 到 一 个 输出 ,对 
于 分 类 问题 ,这 个 输出 结果 可 以 是 概率 值 。 以 词性 标注 为 例 ,每 输入 一 个 词 , 网 络 给 出 的 是 


А 
т^ 
第 16 章 “循环 神经 网 络 479 


这 个 词 属于 每 类 词 ( 如 代词 动词 .名 词 等 ) 的 概率 向 量 。 此 时 ,网 络 的 输出 层 可 以 采用 
softmax Jz, 

文献 L34] 提 出 了 一 种 将 循环 神经 网 络 用 于 自然 语言 处 理 问题 的 一 般 性 建 模 方法 , 称 为 
基于 RNN 的 语言 模型 , 即 RNN-LM。 在 这 里 ,根据 上 一 时 刻 的 隐 含 层 状态 值 以 及 当前 时 
刻 的 输入 单词 来 产生 对 当前 单词 的 预测 结果 。 


16.6.1 中文 分 词 


汉语 句子 的 词 之 间 没 有 类 似 英文 的 空格 ,因此 ,需要 根据 上 下 文 来 完成 对 句子 的 切 分 。 
分 词 的 任务 是 把 句子 切 分 成 词 的 序列 , 即 完成 通常 所 说 的 断 句 功 能, 它 是 解决 自然 语言 处 理 
很 多 问题 的 第 一 步 ,在 搜索 引擎 等 产品 中 都 有 应 用 。 由 于 歧义 和 未 登录 词 即 词典 里 没有 的 
新 词 的 存在 ,中 文 分 词 并 不 是 一 件 简单 的 任务 。 以 下 面 的 句子 为 例 : 
乒乓 球拍 卖 了 
显然 这 句 话 有 歧义 ,对 应 于 下 面 两 种 切 分 方案 : 
FRR 拍卖 了 
乒乓 球拍 卖 了 
句子 中 出 现 词 典 里 没有 的 词 也 会 影响 我 们 的 正确 切 分 ,例如 下 面 的 句子 : 
李 国 庆 节 日 在 加 班 
在 这 里 李 国 庆 是 一 个 人 名 字 ,而 国庆 节 也 是 一 个 合法 的 词 ,正确 的 分 词 需要 程序 知道 李 
国庆 是 人 名 。 
最 简单 的 分 词 算法 是 基于 词典 匹配 ,这 又 分 为 正 向 匹配 、 反 向 匹配 和 双向 匹配 3 种 策 
略 。 如 果 使 用 正 向 最 大 匹配 ,在 分 词 时 用 词典 中 所 有 的 词 和 句子 中 还 未 切 分 的 部 分 进行 匹 
配 , 如 果 存 在 多 个 匹配 的 词 , 则 以 长 度 最 大 的 那个 词 作 为 匹配 结果 。 反 向 最 大 匹配 的 做 法 和 
正 向 最 大 匹配 类 似 , 只 是 从 后 向 前 扫描 句子 。 双 向 最 大 匹配 则 既 进 行 正 向 最 大 匹配 ,也 进行 
反 向 最 大 匹配 ,以 切 分 的 词 较 少 的 最 为 结果 。 显 然 ,词典 匹配 无 法 有 效 地 处 理 未 登录 词 问 
题 , 对 歧义 切 分 也 只 能 简单 使 用 长 度 最 大 的 词 去 匹配 。 词 典 匹配 可 以 看 作 是 解决 分 词 问题 
的 基于 规则 的 方法 。 
作为 改进 ,可 以 采用 全 切 分 路 径 技术 。 这 种 技术 列 出 一 个 句子 所 有 切 分 的 方案 ,然后 选 
择 出 最 佳 的 方案 。 随 着 句子 的 增长 ,这 种 方法 的 计算 量 将 呈 指 数 级 增长 。 
机 器 学 习 技 术 也 被 用 于 分 词 问题 ,采用 序列 标注 的 手段 解决 此 问题 。 隐 马尔 科 夫 模型 、 
条 件 随 机 场 等 方法 为 其 中 的 代表 ,典型 的 方法 包括 文献 L63-66] 。 
分 词 可 以 看 成 是 序列 标注 问题 ,将 一 个 句子 中 的 每 个 字 标 记 成 各 种 标签 。 系 统 的 输入 
是 字 序 列 ,输出 是 一 个 标注 序列 ,因此 ,这 是 一 个 标准 的 序列 到 序列 的 问题 。 在 这 里 ,标注 序 
列 有 这 样 几 种 类 型 , 











{В.М.Е.5} 
其 中 ,B 表示 当前 字 为 一 个 词 的 开始 ;M 表示 当前 字 为 一 个 词 的 中 间 位 置 ;E 表示 当前 字 为 
一 个 词 的 结束 位 置 ;S 表示 单字 词 。 以 下 面 的 句子 为 例 : 
我 是 中 国人 
其 分 词 结果 为 
我 是 中 国人 
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标注 序列 为 
A/S 是 /S 中 /B 国 /M A/E 
同样 地 ,可 以 用 循环 神经 网 络 进行 序列 标注 从 而 完成 分 词 任务 ,在 这 里 网 络 的 输出 是 句 
子 中 的 每 个 字 , 输 出 是 每 个 字 的 类 别 标签 BMES。 得 到 类 别 标签 之 后 ,就 完成 了 对 句子 的 
切 分 。 


16.6.2 词性 标注 


词性 标注 (POS Tagging) 是 确定 一 个 句子 中 各 个 词 的 词性 , 它 是 和 分 词 密切 相关 的 一 
个 问题 。 典 型 的 分 类 有 名 词 动词 .形容词 和 副词 等 。 给 定 句子 中 的 词 序列 ,词性 标注 的 结 
果 是 每 个 词 的 词类 别 。 这 也 可 以 看 成 是 一 个 序列 标注 问题 , 即 给 定 一 个 句子 ,预测 出 句子 中 
每 个 词 的 类 别 : 

(Wi Wo °° ) — ($,,5;,°°°,$„) 

最 简单 的 是 基于 统计 信息 的 模型 , 即 从 训练 样本 中 统计 出 每 种 词性 的 词 后 面 所 跟 的 词 
的 词性 ,然后 计算 最 大 的 概率 。 除 此 之 外 ,条 件 炉 、 隐 马尔 可 夫 模 型 条件 随机 场 等 技术 也 被 
用 于 词性 标注 问题 。 

同样 地 ,词性 标注 问题 可 以 看 作 是 一 个 序列 标注 问题 。 将 循环 神经 网 络 用 于 词性 标注 
p 075 ,输入 序列 是 一 个 句子 的 单词 序列 ,每 个 时 刻 的 输入 向 量 是 单词 的 one-hot 编码 向 
量 , 网 络 的 输出 为 单词 属于 某 一 类 词 的 概率 ,此 时 输出 层 可 以 采用 softmax 回归 。 在 这 里 ， 
典型 的 标注 集合 为 





{vnyay…} 
其 中 ,v 为 动词 ,n 为 名 字 ,a 为 形容 词 ,其 他 词性 在 这 里 不 详细 列 出 。 训 练 时 ,也 使 用 端 到 端 
的 方案 ,直接 给 定语 句 和 对 应 的 标签 序列 。 神 经 网 络 的 预测 输出 就 是 每 个 词 的 词性 类 别 值 。 


16.6.3 ”命名 实体 识别 


命名 实体 识别 (Named Entity Recognition. NER) 又 称 为 专 名 识别 ,其 目标 是 识别 文本 
中 有 特定 含义 的 实体 ,如 人 名 、 地 名 、 机 构 名 称 `. 专 有 名 词 等 ,属于 未 登录 词 识别 的 范 
WARES) 。 命 名 实体 识别 和 其 他 自然 语言 处 理 问 题 相 比 存在 的 一 个 困难 是 训练 样本 缺乏 , 因 
为 未 登录 词 很 少 有 重复 的 ,基本 上 都 是 新 闻 。 

如 果 直 接 用 序列 标注 的 方法 解决 命名 实体 识别 ,思路 与 分 词类 似 , 这 里 要 识别 出 句子 里 
所 有 的 专 名 词 。 假 设 要 识别 的 专 有 词 包括 人 名 、 地 名 组 织 机 构 名 称 , 则 标注 集合 为 

{BN,MN,EN,BA,MA,EA,BO,MO,EO,O) 

其 中 ,BN 表示 这 个 字 是 人 名 的 开始 ;MN 表示 人 名 的 中 间 字 ;EN 表示 人 名 的 结束 ;BA 表示 
地 名 的 开始 ;MA 表示 地 名 的 中 间 字 ;EA 表示 地 名 的 结束 ;BO 表示 机 构 名 称 的 开始 ; MO 
表示 机 构 名 称 的 中 间 字 ;EO 表示 机 构 名 称 的 结束 ;O 表示 这 个 字 不 是 命名 实体 。 给 定 所 有 
训练 样本 句子 的 标注 序列 ,就 可 以 实现 端 到 端的 训练 。 预 测 时 输入 一 个 句子 ,输出 标签 序 
列 ,根据 标签 序列 可 以 得 到 命名 实体 识别 的 结果 。 

除了 这 种 最 直接 的 序列 标记 手段 ,还 更 复杂 的 方法 。 文 献 [38] 提 出 了 一 种 用 LSTM 和 
条 件 随机 场 CRF 进行 命名 实体 识别 的 方法 。 假 设 LSTM 网 络 的 输入 序列 是 xi охо ох, 
输出 序列 是 hh ,hs,…,h,。 其 中 ,输入 序列 是 一 个 句子 所 有 的 单词 ,这 些 单词 被 编码 为 向 量 。 
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LSTM 在 1 时 刻 的 输出 向 量 碎 是 句子 中 第 1 个 单词 的 左上 下 文 。 单 词 的 右上 下 文 商 也 
是 非常 重要 的 信息 ,也 通过 LSTM 计算 得 到 ,具体 做 法 是 将 整个 句子 颠倒 过 来 送 入 LSTM 
中 计算 ,第 个 时 刻 的 输出 向 量 即 为 右上 下 文 。 在 这 里 , 称 第 一 个 LSTM 为 前 向 LSTM; 第 二 
个 为 后 向 LSTM。 它 们 是 两 个 不 同 的 神经 网 络 , 分 别 有 各 自 的 参数 。 这 种 结构 也 称 为 双向 
LSTM, 

每 个 词 用 它 的 左上 下 文 和 右上 下 文联 合 起 来 表示 ,即将 两 个 向 量 拼接 起 来 ; 

h, = [hy shy] 

接 下 来 用 条 件 随机 场 对 句子 中 的 所 有 词 进 行 联合 标注 。 对 于 一 个 句子 ,假设 矩阵 己 是 
双向 LSTM 输出 的 得 分 矩阵 。 这 是 一 个 nXk 的 矩阵 ,其 中 上 是 不 同 的 标记 个 数 。 元 素 Py 
为 第 i 个 单词 被 赋予 第 j 个 标记 的 概率 。 

对 于 预测 输出 序列 y, 它 的 得 分 定义 为 


5(Х,у) = » Ау т > Py, 
其 中 ,和 矩阵 4 是 转移 得 分 矩阵 ,其 元 素 表 示 从 标记 ;转移 到 标记 /的 得 分 。 ye 和 y, 是 句子 
的 开始 和 结束 标记 ,我 们 把 它们 加 入 到 标记 集合 中 。 因 此 ,矩阵 4 是 一 个 & 十 2 WM. 
对 所 有 可 能 的 标记 序列 的 softmax 值 定义 了 序列 的 概率 : 
eon 
sek eo» 
其 中 ,Yx 为 句子 X 所 有 可 能 的 标记 序列 。 在 训练 时 ,最 大 化 正确 的 标记 序列 的 对 数 概率 值 ; 
1п(р(у | X))= s(X,y) —In( >) е9) 
yevy 
= s(X.y) — In addyey, (s(X.y)) 
在 解码 时 将 具有 最 大 得 分 的 序列 作为 预测 输出 : 
y' = arg maxsjey, CX) 
这 可 以 通过 动态 规划 算法 得 到 。 根 据 输出 序列 的 值 , 就 可 以 直接 得 到 命名 实体 识别 的 
结果 。 


1664 文本 分 类 


在 第 11 章 中 介绍 过 文本 分 类 问题 ,经 典 的 机 器 学 习 算 法 如 支持 向 量 机 、 贝 叶 斯 分 类 器 
等 都 曾 被 用 于 解决 此 问题 。 在 第 15 章 中 也 介绍 了 卷 积 神经 网 络 在 文本 分 类 问题 中 的 应 用 。 
除了 这 些 方法 之 外 ,循环 神经 网 络 也 被 成 功 地 应 用 于 文本 分 类 问题 。 

文献 [39] 设 计 了 一 种 用 分 层 注意 力 网 络 进 行文 本 分 类 的 方案 。 在 这 种 方案 里 采用 了 分 
层 的 结构 ,首先 建立 句子 的 表示 ,然后 将 它们 聚合 .形成 文档 的 表示 。 在 文档 中 ,不 同 的 词 和 
句子 所 蕴含 的 有 用 信息 是 不 一 样 的 .而 且 重要 性 和 文档 上 下 文 有 密切 的 关系 。 因 此 ,采用 了 
两 层 的 注意 力 机 制 ,第 一 个 是 单词 级 的 ,第 二 个 是 句子 级 的 。 在 提取 文档 的 表示 特征 时 ,会 
关注 某 些 词 和 句子 ,也 会 忽略 一 些 词 和 句子 。 

整个 网 络 由 一 个 单词 序列 编码 器 .一 个 单词 级 注意 力 层 、 一 个 句子 编码 器 、 一 个 句子 级 
注意 力 层 组 成 。 单 词 序列 编码 器 由 GRU 循环 神经 网 络 实现 。 网 络 的 输入 是 一 个 句子 的 单 
词 序 列 , 输 出 是 句子 的 编码 向 量 。 


ply | = 
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假设 一 篇 文档 有 工 个 句子 s;, 句 子 s; AT; 8]. w KRB i 个 句子 中 的 第 t 个 单词 ， 
其 中 1€E[1,T]。 首 先 将 文档 投影 为 一 个 向 量 , 然 后 对 这 个 向 量 进行 分 类 。 第 一 步 是 采用 词 
嵌入 技术 将 一 个 句子 的 单词 转换 为 一 个 向 量 。 计 算 公式 为 
ty Wang 
在 这 里 W, RIRA., RAA GRU 网 络 对 词 序 列 进行 编码 ; 
h = GRU(z,), t€ [1,T] 
h, = GRU(z,), (€ [T.1] 
具体 做 法 参考 双向 КММ 和 双向 LSTM。 得 到 隐 含 层 的 状态 值 ; 
h, = [Л] 
将 这 个 状态 值 作为 句子 的 表示 。 句 子 中 的 不 同 单词 有 不 同 的 重要 性 ,在 这 里 采用 了 注 
意 力 机 制 。 它 的 计算 公式 为 
u, 一 tanh(W,h, + b.) 
exp(ulu,) 
23, exp(uzu,) 


s; = У) ah, 
首先 将 hs 输入 一 个 单 层 的 MLP, 得 到 它 的 隐 含 层 表示 u, ,这 个 单词 的 重要 性 由 向 量 ui 
与 单词 级 上 下 文 向 量 wu 的 相似 度 来 衡量 。 通 过 softmax 函数 ,最 后 得 到 归 一 化 的 重要 性 权 
重 值 a 。 接 下 来 计算 句子 向 量 s;, 它 是 词 向 量 的 加 权 平 均 , 加 权 值 为 每 个 词 的 重要 性 权重 。 
在 这 里 ,上 下 文 向 量 us 被 随机 初始 化 ,并 且 在 训练 过 程 中 和 神经 网 络 一 起 训练 得 到 。 
在 得 到 句子 向 量 之 后 ,可 以 用 类 似 的 方式 得 到 文档 向 量 。 在 这 里 ,使 用 双向 GRU 对 句 
子 进行 编码 : 


ay = 


h = GRU(s,), i€ [1.1] 
h, = GRU(s;), i€ [L.1] 
将 这 两 个 向 量 合并 ,得 到 句子 的 编码 向 量 : 


h; = h] 
这 个 编码 综合 第 i 个 句子 周围 的 句子 ,但 还 是 聚焦 于 第 i 个 句子 。 类 似 地 ,用 句子 级 的 
注意 力 机 制 来 形成 文档 的 表示 向 量 : 
и; = tanh(W,h; + b,) 
_ _exp(ufu,) 
23, exp(ulu,) 
v= Dah 
在 这 里 v 是 文档 向 量 , 它 综合 了 所 有 句子 的 信息 。 向 量 и, 通过 训练 得 到 。 最 后 用 文档 
向 量 来 对 文档 进行 分 类 : 


р = softmax(W, v + b.) 
训练 时 的 损失 函数 采用 负 对 数 似 然 函 数 ,定义 为 


L —— >) Inpa 
其 中 ,j 是 第 d 个 文档 的 类 别 标签 值 。 采 用 注意 力 机 制 , 可 以 直接 把 对 分 类 有 页 献 的 词 和 句 


子 显示 出 来 ,便于 理解 和 调试 分 析 。 
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1665 自动 摘要 


自动 摘要 的 目标 是 给 定 一 段 文本 ,得 到 它 的 摘要 信息 ,摘要 信息 浓缩 了 文本 的 内 容 ,与 
输入 文本 有 相同 的 语义 ,体现 了 文章 的 主要 内 容 。 在 这 里 ,输入 文本 可 以 是 一 句 话 或 者 多 名 
话 。 摘 要 输出 语句 的 词汇 表 和 输入 文本 的 词汇 表 相同 。 可 以 将 自动 摘要 也 看 成 是 一 个 序列 
到 序列 的 预测 问题 ,输出 序列 的 长 度 远 小 于 输入 序列 的 长 度 。 

文献 [43] 提 出 了 一 种 使 用 注意 力 机 制 和 seq2seq 技术 的 新 闻 类 文章 标题 生成 算法 。 在 
这 里 , 先 用 seq2seq 的 编码 网 络 生成 文本 的 抽象 表示 ,解码 器 网 络 在 生成 摘要 的 每 个 单词 的 
时 候 使 用 注意 力 机 制 关注 文本 中 的 重点 词 。 

首先 ,新闻 文章 的 每 个 单词 被 依次 输入 编码 网 络 ,单词 首先 被 送 入 嵌入 层 , 生 成 概率 分 
布 表 示 。 然 后 ,被 送 入 有 多 个 隐 含 层 组 成 的 训练 神经 网 络 。 所 有 词 被 输入 网 络 处 理 之 后 ,最 
后 一 个 隐 含 层 的 状态 值 h 将 用 来 作为 解码 器 网 络 的 输入 。 

接 下 来 将 hh 作为 解码 器 网 络 的 部 分 输入 信息 。 首 先 将 一 个 结束 符 End-Of-Sequences 
(简称 EOS) 和 有 拼接 起 来 ,输入 解码 器 网 络 , 用 sofumax 层 和 注意 力 机 制 生成 第 一 个 摘要 单 
词 ,反复 执行 这 种 操作 ,最 后 以 EOS 结束 。 在 生成 每 一 个 单词 时 ,将 生成 的 上 一 个 单词 作为 
解码 器 网 络 的 输入 。 

训练 时 的 损失 函数 定义 为 
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其 中 ,xi 是 输入 文本 的 单词 序列 ,y; 是 生成 的 摘要 单词 序列 。 训 练 时 ,解码 器 在 每 个 时 刻 的 
输入 为 真实 的 标题 中 的 单词 ,而 不 是 上 一 时 刻 生成 的 单词 。 在 测试 时 , 则 使 用 的 是 上 一 时 刻 
生成 的 单词 。 但 这 样 做 会 造成 训练 和 预测 时 的 脱节 ,作为 补救 ,在 训练 时 随机 地 使 用 真实 的 
单词 和 上 一 时 刻 生成 的 单词 作为 输入 。 在 预测 时 ,使 用 集束 搜索 技术 生成 每 一 个 输出 单词 。 

在 解码 器 生成 每 个 输出 单词 时 使 用 了 注意 力 机 制 。 对 于 每 一 个 输出 单词 ,注意 力 机 制 
为 每 个 输入 单词 计算 一 个 权重 值 , 这 个 权重 值 决定 了 对 每 个 输入 单词 的 关注 度 。 这 些 权 重 
的 和 为 1 ,并 被 用 于 计算 最 后 一 个 隐 含 层 的 输出 值 的 加 权 平 均值 ,在 这 里 ,每 次 处 理 完 一 个 
输入 单词 ,会 产生 一 个 输出 值 ,最 后 是 对 这 些 输 出 值 进行 平均 。 这 个 加 权 平 均值 被 看 作 是 文 
档 的 上 下 文 信息 , 接 下 来 , 它 和 解码 器 当前 解码 时 最 后 一 个 隐 含 层 的 输出 值 一 起 被 送 入 
softmax 层 进行 计算 。 


1666 ”机 器 翻译 


在 第 1 章 中 介绍 了 机 器 翻译 问题 ,在 这 里 重点 介绍 用 深度 学 习 技 术 的 机 器 翻译 模型 。 
统计 机 器 翻译 采用 大 量 的 语料库 进行 学 习 , 训 练 样本 为 源 语言 和 目标 语言 的 语句 。 得 到 模 
型 之 后 ,对 于 一 条 语句 ,算法 直接 使 用 这 个 模型 得 到 目标 语言 的 语句 。 

如 果 用 统计 学 习 的 方法 ,机 器 翻译 要 解决 的 问题 是 ,给 定 一 个 输入 句子 a, 对 于 另外 一 
种 语言 所 有 可 能 的 翻译 结果 b, 计 算 条 件 概率 p(b |a) .概率 最 大 的 句子 就 是 翻译 的 结果 。 

使 用 机 器 学 习 的 翻译 有 基于 词 的 翻译 和 基于 短语 的 翻译 两 种 方法 。 前 者 对 词 进行 翻 
译 , 不 考虑 上 下 文 语 境 和 词 之 间 的 关联 ,后 者 对 整个 句子 进行 翻译 ,目前 主流 的 是 基于 短语 
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的 翻译 。 
可 以 将 机 器 翻译 问题 抽象 成 一 个 序列 x, 到 另外 一 个 序列 y; 的 预测 : 
CC 

与 语音 识别 之 类 的 应 用 不 同 , 这 里 的 序列 到 序列 映射 并 不 是 一 个 单调 映射 ,也 就 是 说 ， 
输出 序列 的 顺序 是 按照 输入 序列 的 顺序 来 的 。 这 很 容易 理解 ,将 一 种 语言 的 句子 翻译 成 另 
一 种 语言 的 句子 时 , 源 语 言 中 的 每 个 单词 的 顺序 和 目标 语言 种 每 个 单词 的 顺序 不 一 定 是 一 
致 的 。 

训练 时 的 目标 是 对 所 有 的 样本 最 大 化 下 面 的 条 件 概率 : 

max (yi ,yz "°" y, | Xi X: "°° Xm) 
因此 ,我 们 需要 在 所 有 可 能 的 输出 序列 中 寻找 到 上 面 的 条 件 概率 值 最 大 的 那个 序列 作 
为 机 器 翻译 的 输出 。 如 果 用 神经 网 络 来 对 机 器 翻译 进行 建 模 , 称 为 神经 机 器 翻译 。 当 前 ,用 
循环 神经 网 络 解决 机 器 翻译 问题 的 主流 方法 是 序列 到 序列 学 习 技术 。 

文献 [44] 提 出 了 用 seq2seq 技术 解决 机 器 翻译 问题 。 在 这 里 ,使 用 编码 器 对 输入 的 输 
入 序列 进行 特征 编码 ,得 到 这 句 话 的 意义 ,然后 用 解码 器 对 这 个 意义 进行 解码 并 得 到 概率 最 
大 的 输出 序列 ,这 就 得 到 了 翻译 的 结果 。 

先 将 源 句子 表示 成 向 量 序列 x; ,i 二 1,2,…,T, 在 这 里 每 个 向 量 是 一 个 词 的 编码 向 量 。 
通过 第 一 个 循环 神经 网 络 , 当 输入 完 这 个 序列 之 后 得 到 最 后 时 刻 的 隐 含 层 状态 值 hr ,在 这 
里 简 记 为 w。 这 个 值 包含 整个 句子 的 信息 。 

接 下 来 用 解码 器 生成 翻译 序列 。 解 码 器 循环 神经 网 络 隐 含 层 的 初始 状态 值 为 v, 它 输 
出 向 量 序列 y; ,i 二 1,2,…,n。 在 每 个 时 刻 , 它 以 y, Flo 作为 输入 ,输出 y+ 。 在 每 个 时 刻 ， 
用 解码 器 网 络 的 softmax 函数 回归 结果 ,选择 概率 最 大 的 词 作为 候选 词 。 对 于 所 有 可 能 的 
输出 序列 ,都 可 以 用 解码 器 计算 出 它 的 条 件 概率 值 ,在 这 里 要 寻找 概率 值 最 大 的 那个 序列 。 
如 果 枚 举 所 有 可 能 的 输出 序列 ,计算 量 太 大 ,显然 是 不 现实 的 。 在 这 里 采用 了 集束 搜索 技术 。 

训练 样本 是 成 对 的 句子 , 即 源 句子 和 它 的 翻译 结果 。 训 练 的 目标 是 最 大 化 对 数 概率 值 : 

1/|D| У) InpcT | Sy 


‹т,›єр 


其 中 ,D 是 训练 样本 集 ,S 是 源 句子 ,T 是 翻译 的 句子 。 训 练 完 成 之 后 ,可 以 用 这 个 模型 来 进 
行 翻译 , 即 寻找 概率 最 大 的 输出 序列 : 
Т = arg тахтр(Т | S) 

在 这 里 采用 了 自 左 到 右 的 集束 解码 器 。 它 维持 & 个 最 有 可 能 的 部 分 结果 ,部 分 结果 是 
整个 翻译 句子 的 前 级 部 分 。 在 每 一 步 .我们 在 词典 的 范围 内 用 每 一 个 可 能 的 词 扩展 这 个 部 
分 结果 。 然 后 用 seq2seq 模型 计算 这 些 部 分 结果 的 概率 ,保留 概率 最 大 的 部 分 结果 。 当 输 
人 结束 符 之 后 ,整个 翻译 过 程 结束 。 

在 实现 时 ,无 论 是 在 训练 阶段 还 是 测试 阶段 ,都 将 句子 反 序 输入 ,但 是 预测 结果 序列 是 
正 序 而 不 是 反 序 。 另 外 ,并 没有 采用 单个 隐 含 层 的 循环 神经 网 络 ,而 是 采用 了 4 层 的 LSTM 
网 络 。 

文献 [44] 提 出 了 一 种 用 编码 器 -解码 器 框架 进行 机 器 翻译 的 方法 。 在 这 里 ,编码 器 - 解 
码 器 框架 的 结构 和 之 前 介绍 的 相同 。 不 同 的 是 .使 用 了 一 种 新 的 隐藏 单元 , 即 循环 层 的 激活 
函数 。 这 种 激活 函数 与 LSTM 类 似 , 但 计算 更 简单 。 在 这 里 ,使 用 了 两 个 门 来 进行 信息 流 
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的 控制 ,分 别称 为 更 新 门 和 复位 门 ,原理 与 GRU 类 似 , 在 这 里 不 详细 介绍 。 
假设 е 为 源 语句 ,jy 为 翻译 后 的 目标 语句 。 根 据 贝 叶 斯 公式 ,机 器 翻译 的 目标 是 给 定 源 
语句 ,寻找 使 得 如 下 条 件 概率 最 大 的 目标 语句 : 
bf |e x p(e | f)p( f) 
上 式 右 边 的 第 一 项 为 转换 模型 ,第 二 项 为 语言 模型 ,这 与 语音 识别 类 似 。 大 多 数 机 器 翻 
译 算法 将 转换 模型 表示 成 对 数 线性 模型 : 


N 
InpCf | e) = У), /, fre) + InZ(e) 
п=1 


其 中 ,f, 为 第 个 特征 ;rw 为 特征 的 权重 ;Z(e) 为 归 一 化 因子 。 在 这 里 编码 器 -解码 器 框架 
用 于 对 对 数 线性 模型 的 翻译 候选 结果 短语 进行 评分 。 

文献 [45] 提 出 一 种 使 用 了 双向 循环 神经 网 络 的 机 器 翻译 算法 ,循环 层 也 使 用 了 重 置 门 
和 更 新 门 结构 。 

解码 器 用 循环 神经 网 络 实现 , 它 根据 当 前 状态 ,以 及 当前 的 输出 词 预测 下 一 个 输出 词 ， 
计算 公式 为 





bOi | ууз," ух) = рбу—у,5;,С) 

其 中 ,si 为 解码 器 网 络 隐 含 层 的 状态 。 这 个 框架 采用 了 注意 力 机 制 ,计算 方 法 和 之 前 介绍 的 
相同 。 

文献 [47] 介 绍 了 Google 公司 的 机 器 翻译 系统 。 它 们 的 系统 同样 采用 了 编码 器 -解码 器 
架构 ,两 个 网 络 都 由 深层 双向 LSTM 网 络 实现 ,并 采用 了 注意 力 机 制 。 

这 里 的 深层 双向 LSTM 网 络 和 前 面 介绍 的 相同 ,不 再 重复 讲述 。 为 了 克服 深层 带 来 的 
梯度 消失 问题 , 隐 含 层 采用 了 残 差 网 络 结构 , 即 跨 层 连接 。 

给 定 训练 样本 集 D=((X,.Y/ 0) ,i 二 1,2,… ,NN, 训 练 时 的 目标 是 最 大 化 对 数 似 然 函 数 ， 
即 对 数 条 件 概率 值 : 


Om (0) = ono; | X) 
在 这 里 Ө 是 要 求解 的 参数 。 同 样 地 ,解码 时 也 使 用 了 集束 搜索 算法 。 


16.7 应 用 一 一 机 器 视觉 


机 器 视觉 是 卷 积 神经 网 络 擅长 的 领域 ,使 用 它 人 们 可 以 提取 出 复杂 的 图 像 特征 。 在 视 
觉 领域 的 各 种 问题 中 ,有 些 问 题 和 时 间 有 关 , 如 视频 、 动 作 、 物 体 的 运动 等 ,如 果 我 们 提取 出 
了 描述 每 一 个 时 刻 状态 的 特征 ,这 个 问题 就 变 成 了 时 间 序 列 预测 问题 ,这 是 循环 神经 网 络 擅 
长 处 理 的 。 机 器 视觉 领域 的 这 些 问 题 都 有 循环 神经 网 络 的 成 功 应 用 。 


167.1 字符 识别 


如 果 我 们 知道 每 个 字符 的 笔画 信息 , 即 整个 字 的 书写 过 程 , 则 可 以 将 手写 字符 识别 看 成 
是 一 个 轨迹 分 类 问题 。 每 个 手写 字符 是 一 个 序列 数据 ,每 个 时 刻 的 坐标 连接 起 来 ,在 平面 上 
构成 一 个 字符 的 图 像 。 手 写字 符 识 别 属 于 序列 标记 问题 中 的 序列 分 类 问题 , 即 给 定 一 个 字 
符 的 坐标 点 序列 ,预测 这 个 字符 的 类 别 。 在 这 里 ,循环 神经 网 络 的 输入 为 坐标 点 序列 ,输出 
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值 为 类 别 , 为 了 达到 这 个 目的 ,我 们 可 以 将 最 后 一 个 时 刻 的 循环 层 输出 值 映射 为 类 别 概率 ， 
这 可 以 通过 softmax 层 实现 。 

另外 ,也 可 以 直接 以 图 像 作为 输入 ,在 这 里 ,把 图 像 看 作 是 一 个 序列 ,序列 中 的 每 一 个 向 
量 是 图 像 中 的 一 个 行 的 像素 。 依 次 将 每 一 行 输入 循环 神经 网 络 , 最 后 时 刻 的 隐 含 层 状态 输 
出 作为 提取 的 字符 特征 , 送 入 softmax 层 进行 分 类 。 


16.7.2 目标 跟踪 


在 第 15 章 中 已 经 介绍 过 运动 跟踪 的 概念 。 这 个 问题 可 以 抽象 为 已 知 目标 在 之 前 时 刻 
的 坐标 ,预测 出 它 在 当前 时 刻 的 坐标 ,这 同样 是 一 个 序列 预测 问题 。 

文献 [49] 提 出 一 种 用 循环 神经 网 络 进行 目标 跟踪 的 方法 , 称 为 RTT。RTT 主要 的 目 
标 是 解决 目标 遮挡 问题 。 循 环 神经 网 络 的 作用 是 得 到 置信 度 图 , 即 每 个 点 处 是 目标 的 概率 。 
下 面 介 绍 这 种 方法 的 处 理 流 程 。 

在 对 每 一 帧 进行 跟踪 时 ,给 定 目标 在 上 一 帧 中 的 矩形 框 , 以 目标 的 中 心 为 中 心 , 以 目标 
宽 高 的 2. 5 倍 为 宽 高 ,即将 目标 矩形 放大 2. 5 倍 , 得 到 一 个 矩形 的 候选 区 域 。 然 后 ,将 这 个 
候选 区 域 划分 成 网 格 。 然 后 对 每 个 矩形 框 提取 特征 ,可 以 使 用 НОС 特征 ,也 可 以 使 用 更 复 
杂 的 卷 积 网 络 提取 的 特征 。 在 这 里 ,划分 网 格 而 不 是 对 整个 候选 区 域 计算 特征 的 原因 是 这 
样 做 能 够 更 好 地 处 理 遮挡 ,以 及 目标 外 观 的 变化 。 最 后 得 到 候选 区 域 的 特征 。 

然后 ,以 这 个 特征 作为 输入 ,用 多 维 RNN 对 特征 进行 处 理 , 得 到 置信 度 图 。 最 后 根据 
置信 度 图 完成 对 目标 位 置 的 预测 。 

与 单个 目标 跟踪 不 同 ,多 目标 跟踪 需要 解决 数据 关联 问题 , 即 上 一 帧 的 每 个 目标 和 下 一 
帧 的 哪个 目标 对 应 ,还 要 解决 新 目标 出 现 , 老 目标 消失 问题 。 多 目标 跟踪 的 一 般 流程 为 每 一 
时 刻 进行 目标 检测 ,然后 进行 数据 关联 ,为 已 有 目标 找到 当前 时 刻 的 新 位 置 ,在 这 里 ,目标 可 
能 会 消失 ,也 可 能 会 有 新 目标 出 现 ,另外 目标 检测 结果 可 能 会 存在 虚 警 和 漏 检测 。 联 合 概率 
滤波 5 .多 假设 跟踪 5 、 线 性 规划 5 、 全 局 数据 关联 5 MCMC 马尔 可 夫 链 蒙特 卡 洛 算 
法 (多 先后 被 用 于 解决 数据 关联 问题 来 完成 多 个 目标 的 跟踪 。 

首先 定义 多 目标 跟踪 的 中 的 基本 概念 ,目标 是 我 们 跟踪 的 对 象 ,每 个 目标 有 自己 的 状 
态 , 如 大 小 、 位 置 、 速 度 。 观 测 是 指 目标 检测 算法 在 当前 帧 检测 出 的 目标 ,同样 地 , 它 也 有 大 

小 、 位 置 . 速 度 等 状态 值 。 在 这 里 ,我 们 要 建立 目标 与 观测 之 
间 的 对 应 关系 。 图 16. 4 是 数据 关联 的 示意 图 。 

在 图 16.4 中 .第 一 列 圆 形 为 跟踪 的 目标 , 即 之 前 已 经 存 
在 的 目标 ;第 二 列 圆 为 观测 值 . 即 当前 帧 检测 出 来 的 目标 。 
在 这 里 ,第 1 个 目标 与 第 2 个 观察 值 匹配 ,第 3 个 目标 与 第 1 
个 观测 值 匹配 ,第 4 个 目标 与 第 3 个 观测 值 匹配 。 第 2 个 和 


第 5 个 目标 没有 观测 值 与 之 匹配 ,这 意味 着 它们 在 当前 帧 可 
能 消失 了 ,或 者 是 当前 帧 漏 检 ,没有 检测 到 这 两 个 目标 。 类 
@ 似 地 ,第 4 个 观测 值 没有 目标 与 之 匹配 ,这 意味 着 它 是 新 目 





标 ,或 者 虚 警 。 
文献 L[55] 提 出 了 一 种 用 循环 神经 网 络 在 线 跟 踪 多 个 目 
图 16.4 数据 关联 的 示意 图 “标的 算法 。 这 种 方法 实现 了 完全 端 到 端的 训练 。 在 这 里 ,用 
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LSTM 循环 神经 网 络 同时 解决 数据 关联 、 新 目标 出 现 、 老 目标 消失 问题 。 

首先 定义 状态 向 量 x,, 这 是 一 个 N> D 维 向 量 , 表 示 c 时 刻 所 有 目标 的 状态 值 ,其 中 ,D 
为 每 个 目标 的 状态 个 数 , 在 这 里 D 的 值 为 4, 状 态 分 别 为 目标 的 位 置 和 宽 高 。 定 义 N 为 某 
一 帧 中 能 够 同时 跟踪 的 最 大 目标 个 数 。x; 为 第 i 个 目标 的 状态 。 

类 似 地 定义 观测 向 量 z,, 这 是 一 个 MXD 维 向 量 , 表 示 c 时 刻 所 有 观测 值 。 其 中 ,M 为 
每 一 帧 中 最 大 检测 目标 个 数 。 需 要 注意 的 是 ,我 们 对 模型 能 够 处 理 的 最 大 目标 个 数 并 没有 
限制 。 

接 下 来 定义 分 配 概率 矩阵 4, 这 是 一 个 NX CM 十 1) 的 矩阵 ,元素 取 值 0 一 1 SER, AB 
阵 的 每 一 行为 一 个 目标 的 分 配 概率 向 量 , 即 元 素 A; 表示 将 第 ; 个 目标 分 配给 第 j 个 观测 的 
概率 。 分 配 概率 矩阵 满足 约束 条 件 : 

УА, =1 

在 这 里 矩阵 的 列 数 不 是 M 而 是 M 十 1, 因 为 一 个 目标 可 能 不 和 任何 一 个 观测 相 匹 配 。 
最 后 定义 指示 向 量 sg, 这 是 一 个 N 维 向 量 ,每 个 元 素 表示 一 个 目标 存在 的 概率 值 。 

跟踪 问题 被 分 成 两 个 部 分 来 解决 : 状态 预测 与 更 新 ,以 及 跟踪 管理 ;数据 关联 。 前 一 部 
分 负责 单个 目标 的 状态 跟踪 ;后 一 部 分 解决 目标 之 间 的 对 应 关系 。 

对 于 第 一 个 问题 ,用 一 个 时 序 循环 神经 网 络 来 学 习 N 个 目标 的 运动 模型 ,以 及 目标 的 
指示 变量 ,指示 变量 用 于 处 理 目标 的 出 现 与 消失 。 在 时 刻 ,循环 神经 网 络 输出 4 种 值 。 

(1) 包括 所 有 目标 的 状态 预测 值 x ,前 面 已 经 介绍 过 。 

(2) 所 有 目标 状态 的 更 新 值 x+i 。 

(3) 指示 向 量 ea ,其 每 个 元 素 的 值 为 (0,1) ,表示 目标 是 一 个 真实 轨迹 的 概率 。 

OD ea ,这 是 与 e, 的 差 值 。 

神经 网 络 的 输入 为 前 一 个 时 刻 的 状态 值 x,、 前 一 个 时 刻 的 指示 向 量 值 s,、 当 前 时 刻 的 观 
测 值 x+ ,以 及 当前 时 刻 的 数据 关联 矩阵 Aus ,数据 关联 窍 阵 的 计算 方法 将 在 后 面 介 绍 。 

这 个 功能 模块 有 3 个 目标 。 

(1) 预测 。 为 指定 数量 的 目标 学 习 一 个 复杂 的 运动 模型 ,这 个 模型 包含 每 个 目标 的 运 
动 参数 ,包括 速度 、 加 速度 信息 等 。 

(2) 更 新 。 根 据 当 前 的 观测 数据 ,对 预测 值 进行 校正 ,修正 物体 的 状态 值 ,包括 运动 状 
态 值 。 
CD 目标 的 出 现 与 消失 。 学 习 到 如 何 根 据 目 标的 状态 值 、 当 前 时 刻 的 观测 值 ,以 及 数据 
关联 信息 来 处 理 新 目标 的 出 现 问 题 和 已 有 目标 的 消失 问题 。 

预测 值 x 只 取决 于 状态 值 x, 和 循环 神经 网 络 隐 含 层 的 状态 值 h,。 一 旦 数据 关联 矩 
阵 Aiti 已 经 确定 , 即 已 经 知道 了 目标 和 观测 之 间 的 对 应 关系 ,就 可 以 根据 观测 值 来 更 新 状态 
值 ,完成 校正 。 接 下 来 ,将 观测 值 和 预测 的 状态 值 拼 接 在 一 起 : 

£ = [zn xe] 
然后 乘 以 矩阵 Aio Н s+: 也 被 计算 出 来 。 在 确定 了 网 络 的 输出 之 后 ,需要 定义 训练 时 
的 损失 函数 。 损 失 函 数 定义 为 


LG" 340 = А У) lx —2|* + У) ez Lu Gn 
其 中 ,x* xe TAI MEL ENAKE. REEL AE ЖОЖ — БЛ OU TUM BRE IB — BB 
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更 新 误差 ,第 三 和 第 四 部 分 为 目标 消失 、 出 现 以 及 回归 值 误 差 。 这 里 只 定义 了 某 一 个 时 刻 的 
误差 值 ,训练 时 需要 将 每 一 帧 的 误差 值 累 加 起 来 ,然后 计算 平均 值 。 第 一 部 分 误差 的 意义 是 
在 没有 观察 值 的 情况 下 ,预测 值 要 和 目标 的 真实 运动 轨迹 尽 可 能 接近 。 第 二 部 分 的 意义 是 
得 到 观测 值 之 后 ,要 将 预测 值 校正 到 与 观测 值 尽 可 能 接近 。 
第 三 部 分 损失 反映 了 目标 的 出 现 与 消失 。 如 果 s=1, 表 示 一 个 目标 存在 。 如 果 e=0, 
表示 这 个 目标 不 存在 。 为 此 我 们 定义 交叉 箭 损失 函数 
L,Ce.€) = €lne + (1— &€)In(1— e) 
最 后 一 个 问题 是 数据 关联 。 数 据 关联 的 目标 为 每 个 目标 分 配 一 个 唯一 的 观测 值 , 这 是 
一 个 组 合 优化 问题 ,直接 求解 的 话 是 NP 完全 问题 。 在 这 里 ,采用 LSTM 网 络 通过 学 习 来 
解决 此 问题 。 在 这 里 ,网 络 的 输入 是 成 对 距离 矩阵 C, 这 是 一 个 NX M 的 矩阵 ,矩阵 元 素 定 
义 为 
Cy = lx —z |, 
即 第 i 个 目标 的 预测 状态 与 第 j 个 观察 值 之 间 的 欧 氏 距离 。 也 可 以 使 用 更 多 的 信息 ,如 目 
标的 外 观 或 其 他 相似 度 。 网 络 的 输出 值 为 概率 向 量 A* ,表示 第 i 个 目标 与 所 有 观测 值 之 间 
的 分 配 概率 ,通过 softmax 层 输出 。 这 里 的 AS 是 数据 关联 矩阵 的 第 ; 行 。 最 后 ,定义 网 络 
训练 时 的 损失 函数 为 
L(A‘ ,a@) =— 1п(А„) 
其 中 ,a 是 一 个 标量 ,是 目标 i 的 真实 分 配 值 ,即将 目标 i 分 配给 观测 值 &。 


167.3 ”视频 分 析 


视频 动作 识别 中 的 目标 是 对 运动 物体 的 动作 进行 分 类 ,如 人 的 站 立 、 坐 下 等 动作 。 
动作 识别 在 诸多 领域 有 实际 的 应 用 ,如 视频 监控 、 人 机 交互 ,游戏 控制 等 。 这 个 问题 可 以 抽 
象 成 一 个 时 间 序 列 分 类 问题 。 以 人 的 动作 识别 为 例 , 它 的 输入 是 目标 关键 点 坐标 序列 ,如 人 
体 一 些 关键 点 的 二 维 或 三 维 坐标 ,输出 值 为 动作 类 别 , 即 序列 的 标签 值 。 

文献 [57] 提 出 一 种 整合 了 卷 积 神经 网 络 和 循环 神经 网 络 的 框架 进行 人 体 动作 分 类 的 方 
法 。 整 个 系统 包括 一 个 三 维 卷 积 神经 网 络 和 一 个 循环 神经 网 络 。 其 中 ,三 维 卷 积 神经 网 络 
的 输入 为 多 张 图 像 ,用 于 提取 一 段 视频 的 时 空 特征 。 然 后 将 提取 的 特征 序列 送 入 循环 神经 
网 络 中 进行 分 类 。 

在 这 里 , 卷 积 神经 网 络 的 输入 为 三 维 图 像 。 整 个 视频 被 分 成 一 系列 的 固定 长 度 片段 ,每 
个 片段 包括 相同 数量 的 帧 ,被 处 理 成 固定 大 小 的 输入 图 像 。 第 三 个 卷 积 层 后 面 是 两 个 全 连 
接 层 ,最 后 一 个 全 连接 层 有 6 个 神经 元 , 即 卷 积 网 络 的 输出 向 量 为 六 维 。 

接 下 来 将 卷 积 得 到 的 固定 长 度 的 特征 向 量 序列 送 入 LSTM 循环 神经 网 络 。 用 循环 神 
经 网 络 的 输出 完成 对 视频 的 分 类 。 

文献 L[58] 提 出 一 种 用 双向 LSTM 循环 神经 网 络 进行 三 维 手势 分 类 的 方法 。 在 这 里 ,每 
个 时 刻 用 加 速度 计 和 陀螺 仪 测量 出 手 在 三 维 空间 的 加 速度 和 角速度 ,形成 一 个 六 维 的 向 量 ， 
作为 循环 神经 网 络 的 输入 ,这 是 一 个 序列 数据 。 循 环 神经 网 络 采用 双向 LSTM 网 络 。 循 环 
神经 网 络 的 输出 向 量 维 数 和 要 分 类 的 手势 类 型 数 相同 ,最 后 通过 softmax 层 产生 概率 输出 
用 于 分 类 。 这 些 都 是 标准 的 做 法 ,不 再 详细 讲述 。 

文献 [59] 提 出 一 种 用 分 层 循环 神经 网 络 进行 人 体 动 作 识别 的 方法 ,在 这 里 ,利用 人 体 骨 
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架 的 关键 点 信息 ,对 骨架 关键 点 的 运动 轨迹 进行 分 析 。 


整个 人 体 被 分 成 5 个 部 分 进行 建 模 , 分 别 为 四 肢 和 躯干 。 整 个 处 理 流 程 如 下 。 

CD 将 5 个 部 分 分 别 送 入 5 个 子 网 络 中 进行 处 理 。 

(2) 将 四 肢 和 躯干 在 第 (1) 步 中 的 处 理 结果 分 别 进行 融合 , 送 入 4 个 子 网 络 中 进行 
处 理 。 

СЗ) 将 两 只 腹 膊 两 条 腿 、 躯 干 在 第 (2) 步 中 的 处 理 结 果 进 行 融合 , 送 入 2 个 子 网 络 中 进 
行 处 理 。 

(4) 将 第 (3) 步 中 的 两 个 结果 融合 , 送 入 第 4 层 子 网 络 中 进行 处 理 。 

(5) 将 第 (4) 步 的 结果 送 入 全 连接 层 中 进行 处 理 。 

(6) 最 后 用 softmax 层 进行 计算 ,得 到 分 类 概率 。 

在 这 里 ,所 有 循环 层 都 使 用 双向 循环 结构 ,前 面 3 个 循环 层 都 采用 tanh 激活 函数 ,最 后 
一 个 循环 层 采用 LSTM 单元 。 循 环 层 和 全 连接 层 的 计算 方式 和 前 面 介绍 的 标准 结构 相同 
在 这 里 不 详细 讲述 。 

全 连接 层 在 各 时 刻 的 输出 向 量 被 累计 起 来 ,然后 用 softmax 层 进行 概率 输出 。 训 练 时 
的 损失 函数 定义 为 

L(Q) =— Эа | Qn) ) 


т=1 


其 中 ,2 为 训练 样本 集 Q, 为 第 m 个 训练 样本 ;M 为 总 样本 数 ;6 为 Kronecker 函数 ;r 为 第 
m 个 训练 样本 的 真实 类 别 标签 值 。 

整个 网 络 的 输入 为 人 体 各 个 部 位 关键 点 的 三 维 坐标 , 送 入 网 络 之 前 ,对 坐标 进行 了 归 一 
化 处 理 ; 要 识别 的 动作 类 型 根据 实际 应 用 而 定 。 

文献 [60] 提 出 了 一 种 整合 卷 积 神经 网 络 和 循环 神经 网 络 的 视频 识别 方法 。 在 这 里 ,用 
卷 积 网 络 提取 单 帧 图 像 的 特征 ,多 个 帧 的 特征 依次 被 送 入 循环 神经 网 络 中 进行 处 理 。 这 种 
结构 不 仅 在 空间 上 具有 深度 ,在 时 间 上 也 具有 深度 , 称 为 Long-term Recurrent Convolutional 
Networks, 简 称 LRCNs。 

整个 系统 的 输入 是 一 系列 的 视频 帧 ,对 于 每 一 帧 ,首先 经 过 卷 积 网 络 的 作用 ,产生 固定 
长 度 的 输出 向 量 。 经 过 这 一 步 ,得 到 一 个 固定 长 度 的 序列 数据 ， 

中 和 和 

这 个 序列 数据 被 送 入 循环 神经 网 络 中 进行 处 理 , 得 到 输出 值 。 最 后 ,经 过 softmax 层 ， 
得 到 概率 输出 。 这 里 的 卷 积 网 络 和 循环 神经 网 络 的 变换 和 前 面 介 绍 的 标准 做 法 一 致 ,不 再 
重复 介绍 。 假 设 循环 神经 网 络 的 学 习 参 数 为 V 和 WW, 训 练 时 的 损失 函数 定义 为 

L(V,W) =— ТРЕЯ | Xie Yu? 
这 一 框架 可 以 用 于 以 下 3 种 情况 。 
(1) 序列 输入 ,固定 长 度 输出 , 即 实现 映射 : 
(Xi.X;. XT) — y 
典型 的 是 视频 动作 识别 。 在 这 里 输入 是 多 个 视频 帧 ,输出 是 动作 类 别 。 
(2) 固定 长 度 输入 ,序列 输出 , 即 实现 映射 : 
х= (yi syz". yr) 





А 


490; BURSTS 


典型 的 是 生成 图 像 的 描述 ,如 给 图 像 生 成 文字 说 明 。 
(3) 序列 输入 ,序列 输出 。 即 实现 映射 : 





Gn X." KT) > (yi yz yr) 


典型 的 是 视频 描述 ,如 为 一 段 视频 生成 文字 解说 。 
视频 分 类 是 比 图 像 分 类 更 为 复杂 的 问题 ,视频 由 多 个 帧 构成 , 它 不 仅 包含 了 空间 维度 上 


的 信息 ,还 包含 时 间 维 度 上 的 信息 。 文献 [61] 提 出 一 种 视频 分 类 算法 ,这 种 框架 整合 了 
bag-of-words 或 LDA 这 样 的 采样 技术 和 循环 神经 网 络 , 来 形成 视频 在 时 间 线 上 的 特征 表 
示 。 在 这 里 , 先 用 卷 积 网 络 提取 每 一 帧 的 特征 。 然 后 对 特征 进行 池 化 采样 ,最 后 用 循环 神经 
网 络 完成 分 类 。 
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生成 对 抗 网 络 


到 目前 为 止 ,本 书 介绍 的 机 器 学 习 算 法 都 是 在 解决 分 类 、 回 归 、 聚 类 或 者 数据 降 维 之 类 
的 数据 预测 问题 。 另 外 ,还 存在 一 类 称 为 数据 生成 的 问题 , 它 的 目标 是 生成 服从 某 种 概率 分 
布 的 数据 。 例 如 下 面 这 样 一 个 问题 ,要 让 算法 能 够 模仿 人 写字 , 先 考 虑 最 简单 的 情况 : 写 出 
0 一 9 的 阿拉 伯 数 字 。 这 种 问题 该 如 何 解 决 ” 人 在 学 习 写 字 的 时 候 是 通过 反复 训练 得 到 的 ， 
如 果 有 一 种 方法 能 模拟 这 个 过 程 , 先 从 头 开 始 学 习 , 对 每 次 写 出 来 的 字 进 行 评判 并 不 断 地 改 
进 , 就 可 以 解决 这 一 问题 。 

目前 已 经 有 多 种 深度 生成 模型 ,生成 对 抗 网 络 (Generative Adversarial Network, 
GAN) 是 其 中 的 典型 代表 , 它 是 用 机 器 学 习 的 思路 来 解决 数据 生成 问题 的 一 种 通用 框架 。 
它 的 目标 是 生成 服从 某 种 概率 分 布 的 随机 数据 ,由 Goodfellow 在 2014 年 提出 趾 。 这 种 模 
型 能 够 找 出 样本 数据 的 概率 分 布 , 并 根据 这 种 分 布 产生 出 新 的 样本 数据 。 


17.1 随机 数据 生成 


在 介绍 生成 对 抗 网 络 之 前 ,首先 考虑 最 简单 的 随机 数据 生成 问题 。 在 编程 语言 中 常用 
的 随机 数 函 数 就 是 一 种 随机 数据 生成 算法 , 它 可 以 生成 符合 某 种 概率 分 布 的 随机 数 ( 实 际 上 
是 伪 随 机 数 而 不 是 真正 意义 上 的 随机 数 ) ,如 均匀 分 布 和 正 态 分 布 的 随机 数 。 对 于 均匀 分 
布 ,生成 器 生成 的 数据 应 该 在 [a,b]j 这 个 区 间 上 每 个 数 出 现 的 概率 相同 。 
生成 均匀 分 布 随机 数 的 经 典 算法 是 线性 同 余 法 , 它 通 过 线性 函数 进行 迭代 ,根据 上 一 个 
随机 数 确定 下 一 个 随机 数 , 迭 代 公 式 为 
int = (a * =, +b)mod m 
其 中 ,mod 为 取 余 运算 ,a.b 和 为 人 工 设 定 的 常数 。 相 比 之 下 ,生成 正 态 分 布 随机 数 的 算 
法 更 为 复杂 。 下 面 以 Box-Muller 算法 为 例 , 先 考虑 生成 正 态 分 布 N(0,1) 的 随机 数 。 假 设 
随机 变量 a 和 ws 服从 [0,1] 内 的 均匀 分 布 , 则 随机 数 = 和 ze: 
zı = J/—2In u, cos 2zu; 
zy = MV— 21а u, sin 2xu; 
相互 独立 ,并 且 服从 正 态 分 布 N(0,1)。 借 助 于 均匀 分 布 的 随机 数 ,通过 上 面 的 变换 就 
可 以 得 到 正 态 分 布 的 随机 数 。 
上 面 这 两 个 例子 都 是 已 知 要 生成 的 数据 所 服从 的 概率 分 布 ,如 均匀 分 布 . 正 态 分 布 ;并 
且 分 布 的 参数 也 是 已 知 的 ,比如 正 态 分 布 的 均值 和 方差 ,这 称 为 显 式 的 建 模 。 对 于 实际 应 用 
中 的 很 多 问题 ,只 有 一 些 样本 ,算法 需要 从 这 些 样本 来 估计 它们 服从 的 分 布 , 且 概 率 分 布 非 
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常 复杂 ,无 法 得 到 概率 密度 函数 的 精确 表达 式 , 但 要 估计 出 概率 密度 函数 或 者 直接 根据 一 个 
模型 生成 想 要 的 随机 数 , 这 称 为 隐 式 建 模 。 

对 于 写 出 0 一 9 的 阿拉 伯 数 字 的 问题 ,算法 无 法 得 知 这 些 数字 的 图 像 所 服从 的 概率 分 
布 。 对 于 每 个 类 型 的 数字 c .假设 要 生成 32 X 32 像素 的 黑白 数字 图 人像, 如果 将 图 像 拼接 成 
向 量 x 则 为 1024 维 的 随机 向 量 , 每 种 数字 服从 某 种 概率 分 布 : 

palo, c=0,.1,.,9 

但 我 们 并 不 知道 这 个 概率 分 布 的 具体 形式 。 这 就 需要 通过 机 器 学 习 的 手段 直接 产生 一 

个 映射 函数 ,给 定 输入 数据 ,如 噪声 和 数字 的 类 别 ,直接 产生 出 服从 此 概率 分 布 的 样本 。 


17.2 生成 对 抗 网 络 简介 


生成 对 抗 网 络 由 一 个 生成 模型 和 一 个 判别 模型 组 成 。 生 成 模型 用 于 学 习 真 实 样本 数据 
的 概率 分 布 ,并 直接 生成 符合 这 种 分 布 的 数据 ;判别 模型 的 任务 是 指导 生成 模型 的 训练 , 判 
断 一 个 输入 样本 数据 是 真实 样本 还 是 由 生成 模型 生成 的 。 在 训练 时 ,两 个 模型 不 断 竞 争 ,从 
而 分 别提 高 它们 的 生成 能 力 和 判别 能 力 。 

判别 模型 的 训练 目标 是 最 大 化 判别 准确 率 , 即 区 分 样本 是 真实 数据 还 是 由 生成 模型 生 
成 的 。 生 成 模型 的 训练 目标 是 让 生成 的 数据 尽 可 能 与 真实 数据 相似 ,最 小 化 判别 模型 的 判 
别 准确 率 ,这 是 一 对 矛盾 。 在 训练 时 采用 交替 优化 的 方式 ,每 一 次 迭代 时 分 两 个 阶段 : 第 一 
阶段 先 固定 住 判 别 模型 ,优化 生成 模型 ,使 得 生成 的 数据 被 判别 模型 判定 为 真 样本 的 概率 尽 
可 能 高 ;第 二 阶段 固定 住 生成 模型 ,优化 判别 模型 .提高 判别 模型 的 分 类 准确 率 。 

生成 模型 以 随机 噪声 或 类 别 之 类 的 控制 变量 作为 输入 ,一 般 用 多 层 神经 网 络 实现 ,其 输 
出 为 生成 的 样本 数据 ,这 些 样 本 数据 和 真实 样本 一 起 送 给 判别 模型 进行 训练 。 判 别 模型 是 
一 个 二 分 类 器 ,判定 一 个 样本 是 真实 的 还 是 生成 的 ,一 般 也 用 神经 网 络 实现 。 随 着 训练 的 进 
行 ,生成 模型 产生 的 样本 与 真实 样本 几乎 没有 差别 ,判别 模型 也 无 法 准确 地 判断 出 一 个 样本 
是 真实 的 还 是 生成 模型 生成 的 ,此 时 的 分 类 错误 率 为 0. 5, 系 统 达 到 平衡 ,训练 结束 。 生 成 
对 抗 网 络 的 原理 如 图 17.1 所 示 。 
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图 17.1 生成 对 抗 网 络 框架 的 结构 


训练 完成 之 后 ,就 可 以 用 生成 模型 来 生成 人 们 想 要 的 数据 ,可 以 通过 控制 生成 模型 的 输 
入 ( 即 隐 变 量 和 随机 噪声 ) 来 生成 想 要 的 数据 。 


17.2.1 生成 模型 


生成 对 抗 网 络 是 一 个 抽象 框架 ,并 没有 指明 生成 模型 和 判别 模型 具体 为 何 种 模型 ,可 以 
采用 全 连接 神经 网 络 . 卷 积 神经 网 络 ,或 者 其 他 机 器 学 习 模 型 。 生 成 模型 要 做 的 事情 与 图 像 
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分 类 之 类 的 任务 刚好 相反 ,是 根据 类 型 等 输入 变量 来 生成 图 像 之 类 的 样本 数据 。 生 成 模型 
接收 的 输入 是 类 别 之 类 的 隐 变 量 和 随机 噪声 ,输出 与 训练 样本 相似 的 样本 数据 。 其 目标 是 
从 训练 样本 学 习 到 它们 所 服从 的 概率 分 布 ps ,假设 随机 噪声 变量 z 服从 的 概率 分 布 为 
b. (z) , 则 生成 模型 将 这 个 随机 噪声 映射 到 样本 数据 空间 。 生 成 模型 的 映射 函数 为 
G(z.8,) 

其 中 ,z 是 生成 模型 的 输入 ,一般 为 随机 噪声 ,生成 模型 的 输出 为 一 个 向 量 ,如 图 像 ;9, 是 生 
成 模型 的 参数 ,通过 训练 得 到 。 这 个 映射 根据 随机 噪声 变量 构造 出 服从 某 种 概率 分 布 的 随 
机 数 。 


17.2.2 ”判别 模型 


判别 模型 一 般 是 一 个 用 于 分 类 问题 的 神经 网 络 , 用 于 区 分 样本 是 生成 模型 产生 的 还 是 
真实 样本 ,这 是 一 个 二 分 类 问题 。 当 这 个 样本 被 判定 为 真实 数据 时 标记 为 1, 判 定 为 来 白 生 
成 模型 时 标记 为 0。 判别 模型 的 映射 函数 为 

D(x.0,) 
其 中 ,x 是 模型 的 输入 ,是 真实 样本 或 生成 模型 产生 的 样本 ;bs 是 模型 的 参数 ,这 个 函数 的 输 
出 值 是 分 类 结果 ,是 一 个 标量 。 标 量 值 D(x) 表 示 x 来 自 于 真实 样本 而 不 是 生成 器 生成 的 样 
本 的 概率 ,是 [0.1] 的 实数 ,这 类 似 于 logistic 回归 预测 函数 的 输出 值 。 


17.3 ”模型 的 训练 


17. 2 节 介 绍 了 生成 对 抗 网 络 的 框架 , 接 下 来 介绍 模型 的 优化 目标 函数 与 训练 算法 , 即 
如 何 交 蔡 地 训练 生成 模型 和 判别 模型 。 


17.3.1 目标 函数 


训练 的 目标 是 让 判别 模型 能 够 最 大 程度 地 正确 区 分 真实 样本 和 生成 模型 生成 的 样本 ; 
同时 要 让 生成 模型 生成 的 样本 尽 可 能 地 和 真实 样本 相似 。 也 就 是 说 ,判别 模型 要 尽 可 能 将 
真实 样本 判定 为 真实 样本 ,将 生成 模型 产生 的 样本 判定 为 生成 样本 ;生成 模型 要 尽量 让 判别 
模型 将 自己 生成 的 样本 判定 为 真实 样本 。 基 于 以 上 3 个 要 求 , 对 于 生成 模型 ,要 最 小 化 如 下 
目标 函数 : 

In(1 — D(G(z))) 

这 意味 着 如 果 生 成 模型 生成 的 样本 G(z) 和 真实 样本 越 接近 , 则 被 判别 模型 判断 为 真实 
样本 的 概率 就 越 大 , 即 D(G(z)) 的 值 越 接 近 于 1, 目 标 函 数 的 值 越 小 。 对 于 判别 模型 ,要 让 
真实 样本 尽量 被 判定 为 真实 的 , 即 最 大 化 InD GO ,这 意味 着 D(x) 的 值 尽 量 接近 于 1; 对 于 
生成 模型 生成 的 样本 ,尽量 被 判别 为 0, 即 最 大 化 In(1 一 D(G(z)))。 这 样 要 优化 的 目标 函 
数 定 义 为 

ming maxpV (D,G) = E,_,. [nD] + E,—, eo [InC1 — D(GGz)))] 

在 这 里 判别 模型 和 生成 模型 是 目标 函数 的 自 变量 ,它们 的 参数 是 要 优化 的 变量 。 EN 
数学 期 望 , 对 于 有 限 的 训练 样本 ,按照 样本 的 概率 进行 加 权 和 。 这 里 的 min 表示 控制 生成 
模型 的 参数 让 目标 函数 取 最 小 值 ,max 表示 控制 判别 模型 的 参数 让 目标 函数 取 最 大 值 。 
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目标 函数 前 半 部 分 表示 要 让 判别 模型 对 真实 样本 的 概率 输出 最 大 化 , 即 真实 样本 要 被 
判别 为 真实 类 ;后 半 部 分 表示 判别 模型 要 将 生成 模型 生成 的 样本 的 概率 输出 最 小 化 , 即 生成 
模型 生成 的 样本 ,也 要 尽 可 能 被 正确 分 类 ,输出 值 接 近 于 0。 综合 起 来 ,两 部 分 相 加 要 最 
大 化 。 

控制 生成 模型 时 ,目标 函数 前 半 部 分 与 生成 模型 无 关 , 可 以 当 作 常数 ,后 半 部 分 的 取 值 
要 尽 可 能 小 , 即 In(1 一 D(G(x))) 要 尽 可 能 小 ,这 意味 着 D(G(z)) 要 尽 可 能 大 , 即 生 成 模型 
生成 的 样本 要 尽 可 能 被 判别 成 真实 样本 。 

这 个 目标 函数 和 logistic 回归 的 对 数 似 然 函 数 类 似 , 后 者 也 是 用 来 解决 二 分 类 问题 ,在 
第 11 章 中 介绍 过 它 的 似 然 函数 为 


1 
У) Gy Inh, G2 + (1 — y )ln(1—A,(x;))) 


如 果 按 样本 标签 值 的 取 值 0 和 1 将 上 式 拆 开 , 并 将 标签 的 值 带 入 上 式 ,目标 函数 可 以 写 
成 如 下 形式 : 


1 1 
У) ал, + Ind = hye) 


生成 对 抗 网 络 的 目标 函数 将 h(x) 换 成 了 D(G(z)) ,表示 样本 是 生成 模型 产生 的 ,在 控 
制 判别 模型 时 要 达到 的 优化 效果 和 上 式 类 似 。 不 同 的 是 ,logistic 回归 在 训练 达到 最 优点 处 
时 负 样 本 的 预测 输出 值 接近 于 0 ,而 在 生成 对 抗 网 络 中 判别 模型 对 生成 样本 的 输出 概率 值 
在 最 优点 处 接近 于 0. 5 ,与 生成 模型 达到 均衡 。 


17.3.2 训练 算法 


训练 时 采用 分 阶段 优化 策略 进行 优化 ,交替 的 优化 生成 模型 和 判别 模型 ,最终 达到 平衡 
的 状态 ,训练 终止 。 完 整 的 训练 算法 如 下 。 
循环 ,对 1 二 1,2,*… ,max_iter。 
第 一 阶段 : 训练 判别 模型 
循环 ,对 i 二 1,2,… h. 
根据 噪声 服从 的 概率 分 布 ps(z) 产 生 m 个 噪声 数据 zi ,zo t ma 
根据 样本 数据 服从 的 概率 分 布 pas (Xx) 采样 出 m 个 样本 xX] ,Xs xs 
用 随机 梯度 上 升 法 更 新 判别 模型 ,判别 模型 参数 梯度 的 计算 公式 为 
v, 13 haD) +101 DGG,)))] 


第 二 阶段 : 训练 生成 模型 。 
根据 噪声 分 布 产生 mm 个 噪声 数据 Zi ,zz sz, 
用 随机 梯度 下 降 法 更 新 生成 模型 ,生成 模型 参数 的 梯度 计算 公式 为 
з, ind - DGGO» 
结束 循环 
其 中 ,m 是 人 工 设 定 的 参数 , 即 Mini-Batch 梯度 下 降 法 中 的 批量 大 小 。 外 层 循 环 里 所 


《< 
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做 的 工作 分 为 两 步 ,首先 获取 т 个 真实 样本 ,用 生成 模型 生成 m 个 样本 ,用 这 2m 个 样本 训 
练 判别 模型 。 然 后 用 生成 模型 生成 m 个 样本 ,用 这 些 样 本 训练 生成 模型 。 在 第 一 步 中 , 生 
成 模型 保持 不 变 ; 在 第 二 步 中 ,判别 模型 保持 不 变 。 训 练 判别 模型 时 采用 的 是 梯度 上 升 法 ， 
因为 要 求 目标 函数 的 极 大 值 ; 训 练 生成 模型 时 使 用 的 是 梯度 下 降 法 ,因为 要 求 目标 函数 的 极 
小 值 。 

从 实现 上 看 ,生成 对 抗 网 络 就 是 同时 训练 两 个 神经 网 络 。 生 成 模型 和 判别 模型 是 一 起 
训练 的 ,但 是 二 者 训练 的 次 数 不 一 样 , 每 一 轮 和 迭代 时 ,生成 模型 训练 一 次 ,判别 模型 训练 多 
次 ,对 应 内 层 循环 。 训 练 判 别 模型 时 使 用 生成 的 数据 和 真实 样本 数据 计算 损失 函数 ,训练 生 
成 模型 时 要 用 判别 模型 计算 损失 函数 和 梯度 值 。 

使 用 生成 对 抗 网 络 可 以 生成 图 像 或 声音 之 类 的 数据 ,如 手写 数字 、 人 脸 、 自 然 场景 图 像 ， 
图 17.2 是 算法 生成 的 数字 和 人 脸 图 像 。 





(a) 手写 数字 (b) 人 脸 图 像 
图 17.2 用 生成 对 抗 网 络 生 成 的 图 像 (来 自 文献 [1]) 


173.3 理论 分 析 


下 面 对 生 成 对 抗 网 络 的 优化 目标 函数 进行 理论 分 析 。 
结论 1: 如 果 生 成 模型 固定 不 变 , 使 得 目标 函数 取得 最 优 值 的 判别 模型 为 


Рама (x) 
Paw (x) + p, (x) 


下 面 给 出 证 明 。 将 数学 期 望 按 照 定义 展开 ,要 优化 的 目标 为 
VG.D)= | bas GO ln D(x) dx + | p. G)OlnCl — D(g(z)))dz 


Dg (x) = 





= | Pana (x)]n(D(x)) + p, GOInCl — D(x))dx 


将 bas GO Al p, (x) 看 作 常 数 , 上 式 为 D(x) 的 函数 。 构 造 如 下 函数 : 
alnx + bln(1 — x) 
我 们 要 求 它 的 极 值 .对 函数 求 导 并 令 导数 为 0, 解 方程 可 以 得 到 
x = a/(a+b) 

函数 在 该 点 处 取得 极 大 值 ,我 们 要 优化 的 目标 函数 是 这 样 的 函数 ,因此 结论 1 成 立 。 将 

最 优 判别 模型 的 值 代入 目标 函数 中 消 掉 D, 得 到 关于 G 的 目标 函数 : 
C(G)= maxpV(D.G) 
= Ж „ә Шс G2] + Ego 14 — Dé (G(2)))] 
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Dass (х) pb (x) 
P pas (x) + p, GO ] + Ес» [^ Pana (x) + sad 


= Кез [InDé (x) ] Eo [In — Dé (x))] 


= E, [! 


结论 2: HAMS 
Dg = Рама 
时 这 个 目标 函数 取得 最 小 值 , 且 最 小 值 为 一 In4。 下 面 给 出 证 明 。 如 果 有 
Ps = Рав 
De (x) = 1/2 
则 有 


C(G) = In 2 --In =— |n4 











因此 结论 成 立 。 接 下 来 证 明 仅 有 ps 一 pa 能 达到 此 最 小 值 。 由 于 
E, [— In2]+ E,~», [— 192] =— 104 





将 C(G) 减 掉 该 值 有 
CC» =~ Int + KL (po | р) KL[», I BIA 


其 中 ,KL X Kullback-Leibler 散 度 ( 简 称 KL RUE). KL. 散 度 用 于 衡量 两 个 概率 分 布 之 间 
的 距离 ,假设 zx 为 离散 型 随机 变量 ,p(x) 和 g(x) 是 它 的 两 个 概率 分 布 ,KL 散 度 定义 为 


KLC l9 = Урса aa 


C(G) 也 可 以 写成 
C(G) —— ln(4) + 2JSD( pan || pe) 
JSD 为 Jensen-Shannon 散 度 。Jensen-Shannon 散 度 衡量 两 个 概率 分 布 之 间 的 相似 度 ， 
定义 为 
JSD lp = Укыр lo + +KL(q | ә 
Hu. 
т = io +g) 


由 于 两 个 概率 分 布 之 间 的 Jensen-Shannon 散 度 非 负 ,并 且 只 有 当 两 个 分 布 相 等 时 取 值 
为 0, 因 此 结论 2 成 立 。 这 个 结论 也 符合 人 们 的 直观 认识 : 当 生成 模型 生成 的 样本 和 真实 样 
本 充分 相似 时 ,判别 模型 无 法 有 效 区 分 二 者 ,此 时 系统 达到 最 优 状 态 。 对 生成 对 抗 网 络 训练 
机 制 以 及 面临 的 问题 更 深入 的 理论 分 析 可 以 阅读 文献 [13] 。 














17.4 应 用 与 改进 


生成 对 抗 网 络 出 现 之 后 被 广泛 用 于 一 些 实际 问题 ,如 图 像 生成 、 图 像 超 分 辩 分 析 、 图 像 
转换 成 文字 安全 攻击 等 。 在 最 初 的 生成 对 抗 网 络 基 础 上 出 现 了 大 量 改进 方案 , 接 下 来 介绍 
几 种 典型 的 改进 以 及 它 的 应 用 。 





А 
500 m5) Б 


1741 改进 方案 


前 面 介绍 的 生成 模型 的 输入 是 随机 噪声 数据 ,在 实际 应 用 中 ,对 于 要 生成 的 数据 一 般 都 
有 明确 的 变量 来 控制 类 别 或 其 他 信息 ,例如 ,生成 1 一 9 数字 中 的 哪 一 个 。 文 献 [2] 提 出 条 件 
生成 对 抗 网 络 ,简称 CGAN。 其 主要 改进 是 生成 模型 的 输入 数据 除了 随机 噪声 之 外 还 有 人 
工控 制 的 变量 ,通过 控制 这 个 变量 可 以 生成 不 同类 型 的 数据 。 

具体 做 法 是 生成 模型 除了 接收 随机 噪声 作为 输入 之 外 还 加 上 了 一 个 输入 变量 у, Ж 
模型 的 输入 中 也 加 上 这 个 变量 。 变 量 у 称 为 条 件 变 量 , 它 是 类 别 标签 或 其 他 信息 。 由 于 标 
准 的 生成 对 抗 网 络 中 没有 引入 这 种 条 件 变 量 ,因此 ,可 以 认为 它 的 生成 模型 是 无 监督 的 学 
习 , 引 入 条 件 模型 之 后 ,生成 模型 变 成 了 有 监督 的 学 习 。 

实现 时 ,变量 у 用 额外 的 输入 层 加 入 到 生成 模型 和 判别 模型 中 。 加 入 这 个 变量 之 后 优 
化 目标 函数 变 为 

ming maxpV(D.G) = Essa (InD(x | yD) + Esp (ln(1— D(G(z | у)))) 

与 17. 3 节 定 义 的 目标 函数 相 比 , 只 是 把 生成 模型 和 判别 模型 的 输入 变量 换 成 了 条 件 分 
布 的 随机 变量 ,其 他 都 一 样 ,训练 算法 和 17. 3 节 中 介绍 的 也 相同 。 从 这 里 也 可 以 更 清晰 地 
看 到 ,生成 模型 和 图 像 分 类 这 样 的 任务 正好 相反 ,图 像 分 类 是 由 图 像 得 到 类 别 , 而 这 里 是 由 
类 别 得 到 图 像 。 

实现 时 ,如 果 条 件 变量 作为 类 别 变 量 , 则 它 可 以 采用 前 面 介绍 的 one-hot 向 量 编码 方 
式 。 以 生成 MNIST 数据 集 的 手写 数字 图 像 为 例 , 在 生成 模型 中 向 量 ”和 随机 噪声 向 量 x 
串联 输入 到 神经 网 络 中 ,噪声 用 0 一 1 的 均匀 分 布 的 随机 数 生成 。 网 络 的 输出 层 有 784 个 神 
经 元 ,对 应 MNIST 数据 集 的 图 像 。 判 别 模型 将 x 和 y 合并 起 来 送 入 神经 网 络 进行 训练 ,这 





用 生成 对 抗 网 络 生成 尺寸 较 大 的 图 像 时 会 有 模糊 的 问题 ,其 中 一 个 原因 是 生成 模型 的 
网 络 过 于 简单 。 为 了 生成 清晰 的 图 像 ,文献 [3] 提 出 了 一 种 称 为 深度 卷 积 生成 对 抗 网 络 的 方 
法 ,简称 DCGAN。 这 种 方法 的 主要 改进 是 用 深度 卷 积 神经 网 络 作为 生成 模型 ,以 随机 噪声 
向 量 作为 输入 ,输入 向 量 通 过 一 个 反 卷 积 网 络 映射 为 二 维 的 输出 图 像 , 反 卷 积 网 络 通过 转 置 
卷 积 实现 。 

实现 时 ,生成 网 络 的 输入 是 均匀 分 布 随机 向 量 , 被 神经 网 络 映射 成 三 维 图 像 , 接 下 来 是 
反 卷 积 层 , 最 后 输出 RGB 图 像 , 这 个 网 络 没有 池 化 层 和 全 连接 层 。 判 别 网 络 结构 和 生成 网 
络 相反 。 采 用 这 种 结构 的 生成 模型 和 判别 模型 ,DCGAN 在 图 片 生成 上 可 以 达到 非常 真实 
的 效果 。 图 17. 3 是 DCGAN 生成 的 卧室 图 像 。 

文献 [4] 提 出 了 一 种 称 为 拉 普 拉 斯 金字 塔 GAN 的 方法 解决 生成 的 图 像 模糊 的 问题 , 核 
心思 想 是 逐步 细 化 求 精 。 人 在 绘画 时 会 先 画 一 个 草图 ,然后 逐步 细 化 .金字塔 GAN 使 用 了 
这 种 思路 。 在 标准 生成 对 抗 网 络 中 ,生成 模型 只 使 用 一 个 卷 积 网 络 来 生成 图 像 。 在 这 种 方 
法 中 ,金字 塔 的 每 一 层 都 有 一 个 卷 积 网 络 作为 生成 模型 .生成 比 上 一 层 更 清晰 的 图 像 ,通过 
不 断 地 上 采样 然后 细 化 .最 后 得 到 清晰 的 图 像 。 

中 间 的 每 个 卷 积 网 络 以 前 一 层 生成 网 络 产生 的 输出 图 像 和 随机 噪声 作为 输入 ,得 到 分 
辩 率 更 高 的 图 像 。 依 次 进行 这 种 操作 ,最 后 得 到 高 分 辩 率 的 图 像 。 

在 图 像 处 理 中 ,金字 塔 是 一 种 线性 可 道 的 图 像 表示 , 它 将 图 像 表 示 为 一 个 带 通 图 像 集 
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图 17.3 DCGAN 生成 的 卧室 图 像 (来 自 文献 [3]) 


合 , 加 上 一 个 低频 残 差 。 下 采样 操作 d (了) 将 输入 图 像 了 的 高 度 和 宽度 各 缩小 一 半 , 并 且 使 
图 像 变 模糊 。 与 之 相反 的 是 上 采样 uD , 它 将 图 像 工 的 高 度 和 宽度 各 扩大 一 倍 。 通 过 下 采 
样 操作 可 以 构造 图 像 的 高 斯 金字 塔 : 
gD = [Lb sd] 

在 这 里 1, 是 原始 输入 图 像 La E 的 基础 上 下 采样 得 到 。 根 据 高 斯 金字 塔 可 以 构 

造 出 拉 普 拉 斯 金字 塔 !(D , 它 每 一 级 的 系数 h, 是 高 斯 金字 塔 相 邻 两 级 图 像 的 差 , 
h, = 1 (I) = g,(I) — ulgi CD) = L, — uh) 
反 过 来 可 以 通过 拉 普 拉 斯 金字 塔 重 构 出 图 像 , 重 构 公式 为 
L = ullin) +h 

金字 塔 GAN 是 拉 普 拉 斯 金字 塔 表 示 和 CGAN 的 结合 。 在 这 里 用 一 系列 卷 积 网 络 作 
为 生成 模型 Go «Gi ,… ,Gs。 每 一 个 生成 模型 捕 提 拉 普 拉 斯 金字 塔 系数 的 分 布 ,上 面 的 重 构 
公式 可 以 写成 

L = un) +h, = uaa + Ge Ga ua) 

生成 模型 序列 Go Gy s .G, 用 每 一 级 金字 塔 进行 训练 得 到 。 第 级 生成 器 网 络 的 损 

失 函 数 定义 为 





L,G,) = min.) || GG, uia) — h, |: 
其 中 ,zx 为 随机 噪声 向 量 , 根 据 其 服从 的 概率 分 布 得 到 。 整 个 模型 要 优化 的 目标 函数 加 入 
了 额外 的 输入 变量 LE CUT: 
minc MaxpE ы 5, sain (InD(h.D)) + E. ыо (In(1— D(G(z,D ,l))) 

其 中 .1 是 一 张 图 像 . 它 由 另外 一 个 生成 模型 生成 。 

文献 [6] 将 循环 神经 网 络 用 于 生成 对 抗 网 络 框架 ,简称 GRAN。 这 个 框架 的 思路 是 逐 
步 对 图 像 进行 细 化 调整 ,最 后 生成 高 质量 的 输出 图 像 , 就 像 在 一 块 画 布 上 画 画 一 样 ,逐步 添 
加 内 容 最 后 形成 一 幅 画 。 
生成 器 网 络 是 一 个 循环 神经 网 络 ,以 随机 噪声 序列 z ,zs,… ,zr 作为 输入 。 网 络 的 输 
出 是 时 间 序 列 AC, AC; ,… ,ACr ,为 生成 的 图 像 。 在 每 个 时 刻 随机 噪声 z, 和 循环 神经 网 络 





А, 


{501} 


А 
502) 机 器 学 习 与 应 用 


隐 含 层 的 状态 向 量 h, 一 起 被 送 入 函数 中 计算 。 其 中 ,h., 是 上 一 时 刻 生成 的 图 像 AC 9 
编码 向 量 ,通过 函数 g ERIT. ACS). AC, 可 以 看 作 是 上 时 刻画 到 画布 上 的 内 容 。 将 每 
个 时 刻 的 输出 值 AC, 作用 于 画布 ,最 后 形成 图 像 C。 

在 这 里 f 充当 解码 器 ,从 当前 时 刻 的 状态 值 h., 以 及 噪声 z, 解码 出 当前 时 刻 要 画 的 内 
容 ;g 充当 编码 器 的 角色 ,将 上 一 个 时 刻 绘制 的 内 容 AC,-, 编 码 为 一 个 向 量 。 初 娘 时 ,系统 根 
据 噪声 向 量 生 成 初始 状态 值 : 





z— p(Z) 

h-o = tanh(Wz + b) 
即 先 得 到 随机 噪声 ,再 用 神经 网 络 进行 映射 得 到 状态 向 量 。 然 后 在 每 个 时 间 步 计算 要 绘制 
的 内 容 : 

ha = g(AC1) 

AC, = fC [Ren Mer |) 
其 中 , sus hou KRKE h... hos DRRR А. ШЖ ЕЁ E a A 8 58] R8 a ЛК 5 
值 。 最 后 输出 的 图 像 为 各 个 时 刻 输 出 图 像 的 和 ,然后 再 通过 激活 函数 变换 : 


c= > AC,) 


下 面 介绍 训练 和 测试 流程 。 给 定 两 个 生成 对 抗 模型 M, 和 M: 。 每 个 模型 包含 一 
成 器 和 一 个 判定 器 , 即 
М, = {(G,.D,)} 
M, = {(G2sD2)} 
训练 时 两 个 模型 同时 训练 ,以 准备 进行 二 者 竞争 。 在 测试 阶段 模型 M 和 模型 М, 进行 
竞争 ,让 生成 模型 G, 欺骗 判别 模型 D, ; 反 过 来 Mi 也 让 生成 模型 G, 欺骗 判别 模型 Di. 
文献 [9] 提 出 了 一 种 称 为 InfoGAN 的 方法 ,其 主要 的 改进 是 引入 了 隐 变 量 以 对 生成 的 
样本 加 入 语义 控制 信息 。 系 统 由 3 个 网 络 组 成 ,包括 一 个 生成 网 络 和 两 个 判别 网 络 。 生 成 





网 络 的 映射 为 
x = G(z,c) 
它 用 于 数据 的 生成 ,接收 的 输入 为 随机 噪声 z HIR AERE с. Ж%— 1 289 FO 8 ñ) tk Эу 
y» = Р, (х) 


其 中 ,x 为 真实 样本 或 者 生成 器 生成 的 样本 , 它 用 于 区 分 样本 是 真实 的 还 是 生成 器 生成 的 。 
第 二 个 判别 网 络 的 映射 为 
y: = D, (x) 
它 用 于 判断 样本 的 类 别 。 除 了 最 后 一 层 之 外 ,两 个 判别 网 络 共享 参数 。 
损失 函数 通过 互信 息 构 造 。 互 信息 是 信息 论 中 的 一 个 概念 ,用 来 衡量 两 个 随机 变量 的 
相互 依赖 程度 。 对 于 两 个 离散 型 随机 变量 x 和 y, 互 信息 定义 为 


I(x.y)— У Урс, y)]n om 
其 中 ,p(xr,y) 为 联合 概率 分 布 ;p(xr) 和 p03) 为 边缘 概率 分 布 。 对 于 两 个 连续 型 随机 变量 ， 


互信 息 定义 为 





p z. y) 
ТС») = |, |, plas ln CpG) )p y) ey 
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其 中 ,p(x,y) 为 联合 概率 密度 函数 ;p(z) 和 p(y) 为 边缘 概率 密度 函数 。 如 果 两 个 随机 变 
量 相 互 独立 ,互信 息 为 0。 如 果 它 们 存在 确定 的 、 可 逆 的 函数 关系 , 则 二 者 的 互信 息 有 最 
大 值 。 
基于 互信 息 和 隐 含 变量 ,InfoGAN 构造 的 损失 函数 为 
ming maxpV;(D,.G) = V(D,G) — Al (e;G(z;c)) 
函数 的 第 二 项 可 以 看 作 是 正则 化 项 ,用 互信 息 进行 惩罚 。 训 练 时 的 求解 算法 和 标准 生 
成 对 抗 网 络 类 似 。 


17.4.2 典型 应 用 


图 像 超 分 辨 的 目标 是 由 低 分 辨 率 的 图 像 得 到 高 分 辨 率 的 图 像 ,传统 的 做 法 大 多 采用 纯 
图 像 处 理 的 技术 。 用 机 器 学 习 的 思路 解决 超 分辨 问 题 取 得 了 更 好 的 效果 , 卷 积 神经 网 络 被 
成 功 地 用 于 超 分 辨 问题 99。 文献 [7] 提 出 了 一 种 用 生成 对 抗 网 络 框架 解决 图 像 超 分 辨 问题 
的 方法 , 称 为 超 分 辨 生 成 对 抗 网 络 , 简 称 SRGAN ,能 够 将 缩小 4 倍 以 上 的 图 像 进行 复原 。 

这 种 方法 使 用 了 一 种 新 的 损失 函数 ,由 对 抗 损失 和 内 容 损失 两 部 分 构成 。 第 一 部 分 损 
失 和 标准 生成 对 抗 框架 相同 ,通过 一 个 判别 模型 ,让 生成 网 络 生成 的 超 分 辨 图 像 和 真实 高 分 
辩 率 图 像 尽 可 能 接近 。 

生成 器 卷 积 网 络 采用 了 深度 残 差 网 络 ;判别 模型 也 是 一 个 层次 很 深 的 卷 积 网 络 ,用 于 区 
分 一 张 图 像 是 真实 的 高 分 辩 率 图 像 还 是 由 生成 器 网 络 生 成 的 图 像 。 图 像 超 分 辩 率 的 网 络 结 
ЖШ 17.4 所 示 。 
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17.4 图 像 超 分 辨 的 网 络 结构 (来 自 文献 [7]) 


假设 低 分 辩 率 图 像 为 15 ,这 里 的 目标 是 根据 它 估计 出 高 分 辩 率 的 图 像 IS ,在 训练 样本 
中 与 低 分 辩 率 图 像 相 对 应 的 真实 高 分 辩 率 图 像 为 ГНЕ 。 

在 训练 时 , 低 分 辩 率 图 像 通过 对 高 分 辩 率 图 像 进行 高 斯 平滑 滤波 后 下 采样 得 到 。 假 设 
图 像 有 C AP Bii Coil Ë КЕ у W X H X C 的 张 量 ,FRR 和 ТН rWX rH X C 的 张 
ш. Жр, 为 图 像 的 缩放 因子 。 


A, 
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图 像 超 分 辨 由 生成 器 卷 积 网 络 Ge 完成 ,其 参数 为 ge 。 给 定 训练 样本 集 (1* LIO ,其 
中 ,样本 数 为 N。 生 成 器 网 络 的 训练 目标 是 求解 如 下 最 优化 问题 : 


N 
ming, X yO (б, OI) 129) 
п=1 


ДВЕ 88480 Jc РАЖ. ЕН A A ЖН IR. 98 — ñB РЧ AEG «OAR 
素 的 均 方 误差 损失 函数 , 称 为 VGG 损失 ,定义 为 


Wy Ну 
Rog = vr È У) (y Q9), — $5 (Ge, СО), ,)* 


ätt ij z=1 y=1 


其 中 ,$j 是 第 i 个 池 化 层 之 前 的 卷 积 层 中 第 j 个 卷 积 特征 图 像 ;W; 和 H y J RA GE ТА НО 
宽度 和 高 度 。 第 二 部 分 为 对 抗 损失 , 它 用 判别 模型 输出 的 概率 值 构造 ,定义 为 


N 


I, = У) — InD,, (Са, (1™®)) 


п=1 


其 中 ,De (Go, (I™)) 是 判别 模型 对 生成 器 生成 的 图 像 Go CI f RE f H B X sk P (SE: 
真实 高 分 辩 率 图 像 的 概率 。 与 标准 生成 对 抗 网 络 类 似 , 训 练 目 标 是 如 下 最 优化 问题 ， 
ming, maxe, E js... iut nDe, (I98)) + Errat Und 一 De, (Go, (pu) 

生成 器 网 络 采 用 残 差 网 络 结构 ,其 输入 为 低 分 辩 率 的 图 像 以 及 随机 噪声 ,输出 为 高 分 辩 
率 图 像 。 判 别 网 络 也 是 一 个 深度 卷 积 网 络 ,包括 8 个 卷 积 层 。 

在 第 16 章 中 介绍 了 为 图 像 或 视频 生成 文字 解说 的 方法 。 现 在 面临 一 个 相反 的 问题 ， 
由 一 段 文字 来 生成 图 像 。 文 献 L5] 提 出 了 一 种 用 循环 神经 网 络 和 深度 卷 积 生成 对 抗 网 络 解 
决 这 一 问题 的 方法 ,将 视觉 概念 从 文字 变 成 像素 表示 。 

与 机 器 翻译 类 似 , 这 里 采用 编码 器 -解码 器 思想 。 算 法 的 第 一 步 是 将 一 段 文字 转换 成 向 
量 表示 , 即 文字 的 语义 信息 ,在 这 里 采用 了 深度 对 称 结构 化 联合 嵌入 方法 。 这 种 方法 通过 一 
个 深度 卷 积 网 络 和 一 个 循环 神经 网 络 为 文本 产生 向 量 输出 ,这 个 输出 和 图 像 对 应 ,完成 这 一 
功能 的 映射 函数 称 为 对 应 函数 六。 这 个 函数 通过 在 训练 时 求解 如 下 最 优化 问题 得 到 : 


N 
wo Абу, f CH +A Cyn» fi УУ, 
iN n=l 


其 中 ,Cv ,bt,,y,) 为 训练 样本 集 ,vw 为 图 像 , 为 对 应 的 文字 描述 ,y, 为 类 别 标签 ,A 为 0-1 
损失 函数 。 分 类 器 f. 和 广 被 参数 化 表示 为 
Cu) = arg maxyevE,~ ny ($60  gQ2) 
f, CQ = arg maxyeyE vo) (GG eG) 
其 中 ,% 为 图 像 编 码 器 ,是 一 个 深度 卷 积 神经 网 络 ;9 为 文本 编码 器 ,用 循环 神经 网 络 实现 ; 
T(y) 为 类 型 y 的 文本 描述 集合 ;V(y) 为 类 型 y 的 图 像 描述 集合 。 
算法 的 第 二 步 是 在 第 一 步 生成 的 文本 向 量 基础 上 训练 一 个 生成 对 抗 网 络 。 在 这 里 生成 
模型 是 一 个 深度 卷 积 网 络 ,负责 生成 图 像 。 生 成 器 网 络 实现 的 映射 为 
Кх В RP 
其 中 ,T 为 文字 描述 向 量化 后 的 向 量 维 数 ;2Z 为 随机 噪声 的 维 数 :D 是 生成 的 图 像 的 维 数 。 
生成 网 络 接收 随机 噪声 向 量 和 文字 的 特征 向 量 作为 输入 ,输出 指定 大 小 的 图 像 。 
判别 器 实现 的 映射 为 
Вох RT— {0.1} 


А 
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其 输入 为 文字 向 量 和 图 像 . 输 出 是 这 张 图 像 是 真实 的 还 是 生成 网 络 生 成 的 ,判别 模型 也 
是 一 个 深度 卷 积 网 络 。 
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第 18 章 
ANE E 


RRN 属于 无 监督 学 习 问 题 ,其 目标 是 将 样本 集 划分 成 多 个 类 ,保证 同一 类 的 样本 之 间 
尽量 相似 ,不 同类 的 样本 之 间 尽 量 不 同 , 这 些 类 称 为 复 (Cluster)。 与 有 监督 的 分 类 算法 不 
Vi] , 聚 类 算法 没有 训练 过 程 ,直接 完成 对 一 组 样本 的 划分 。 与 有 监督 学 习 算法 相 比 ,无 监督 
学 习 算 法 的 研究 进展 更 为 缓慢 ,但 在 很 多 实际 问题 中 得 到 了 成 功 的 应 用 。 


18.1 问题 定义 


聚 类 也 是 分 类 问题 , 它 的 目标 也 是 确定 每 个 样本 所 属 的 类 别 。 与 有 监督 的 分 类 算法 不 

同 ,这 里 的 类 别 不 是 人 工 预 定好 的 ,而 由 聚 类 算法 确定 。 假 设 有 一 个 样本 集 : 
C= {хх} 
聚 类 算法 把 这 个 样本 集 划 分 成 n 个 不 相交 的 子 集 C1 ,Cs ,…,C。。 这 些 子 集 的 并 集 是 
整个 样本 集 : 
CGUGU--UC,-C 
每 个 样本 只 能 属于 这 些 子 集 中 的 一 个 , 即 任意 两 个 子 集 之 间 没 有 交集 ; 
CNC = ф. Visjrizj 
其 中 ,m 的 值 可 以 由 人 工 设 定 ,也 可 以 由 算法 确定 。 下 面 用 一 个 实际 的 例子 来 说 明 聚 类 任 
务 。 假 设 有 一 堆 水 果 ,我们 事先 并 不 知道 有 几 类 水 果 , 聚 类 算法 要 完成 对 这 堆 水 果 的 归 类 ， 
而 且 要 在 没有 人 工 的 指导 下 完成 。 

聚 类 本 质 上 是 集合 划分 问题 。 因 为 没有 人 工 定义 的 类 别 标准 ,因此 ,要 解决 的 核心 问题 
是 如 何 定义 复 。 通 常 的 做 法 是 根据 复 内 样本 间 的 距离 .样本 点 在 数据 空间 中 的 密度 来 确定 。 
对 簇 的 不 同 定 义 导致 了 各 种 不 同 的 聚 类 算法 。 常 见 的 聚 类 算法 有 以 下 几 种 。 

CD 连通 性 聚 类 。 典 型 的 代表 是 层次 聚 类 算法 . 它 根据 样 本 之 问 的 连通 性 来 构造 簇 , 所 
有 连通 的 样本 属于 同一 个 簇 。 

(2) 基于 质心 的 聚 类 。 典 型 的 代表 是 均值 算法 , 它 用 类 中 心 向 量 来 表示 一 个 簇 ,样本 
所 属 的 簇 由 它 到 每 个 簇 的 中 心 向 量 的 距离 确定 。 

(3) 基于 概率 分 布 的 聚 类 。 这 种 算法 假设 每 种 类 型 的 样本 服从 某 一 概率 分 布 ,如 多 维 
正 态 分 布 ,典型 的 代表 是 EM 算法 。 

(4) 基于 密度 的 聚 类 。 典 型 的 代表 是 DBSCAN 算法 .OPTICS 算法 和 均值 漂移 (Mean 
Shift) 算 法 ,它们 将 簇 定义 为 空间 中 样本 密集 的 区 域 。 

(5) 基于 图 的 算法 。 这 类 算法 用 样本 点 构造 出 带 权重 的 无 向 图 ,每 个 样本 是 图 中 的 一 
个 顶点 ,然后 使 用 图 论 中 的 方法 完成 聚 类 。 
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18.2 层次 聚 类 


对 于 有 些 问题 ,类 型 的 划分 具有 层次 结构 。 例 如 ,水 果 分 为 苹果 、 禁 、 梨 等 ,苹果 又 可 以 
细 分 成 黄 元 帅 、 红 富士 、 蛇 果 等 很 多 品种 , 杏 和 巢 也 是 如 此 。 将 这 种 谱系 关系 画 出 来 ,是 一 棵 
分 层 的 树 。 层 次 聚 类 器 使 用 了 这 种 做 法 , 它 反复 将 样本 进行 合并 ,形成 一 种 层次 的 表示 。 

初始 时 每 个 样本 各 为 一 秘 ,然后 开始 反复 合并 的 过 程 。 计 算 任意 两 个 篮 之 间 的 距离 ,并 
将 聚 类 最 小 的 两 个 复合 并 。 图 8. 1 是 对 水 果 进 行 层 次 聚 类 的 示意 图 。 


HEI HAE HER 














水 果 
图 18.1 对 水 果 进 行 层 次 聚 类 的 结果 


算法 依赖 于 两 个 复 的 距离 值 , 因 此 需要 定义 它 的 计算 公式 。 常 用 的 方案 可 有 3 种 。 第 
一 种 方案 是 使 用 两 个 簇 中 任意 两 个 样本 之 间 的 距离 的 最 大 值 , 第 二 种 方案 是 使 用 两 个 簇 中 
任意 两 个 样本 之 间 的 距离 的 最 小 值 , 第 三 种 方案 是 使 用 两 个 簇 中 所 有 样本 之 间距 离 的 均值 。 


18.3 基于 质心 的 算法 


基于 质心 的 算法 计算 每 个 簇 的 中 心 向 量 , 以 此 为 依据 来 确定 每 个 样本 所 属 的 类 别 , 典 型 
的 代表 是 上 均值 算法 。 

上 均值 算法 外 是 一 种 被 广泛 用 于 实际 问题 的 聚 类 算法 。 它 将 样本 划分 成 个 类 ,参数 上 
由 人 工 设 定 。 算 法 将 每 个 样本 划分 到 离 它 最 近 的 那个 类 中 心 所 代表 的 类 ,而 类 中 心 的 确定 
又 依赖 于 样本 的 划分 方案 。 假 设 样本 集 有 /个 样本 ,特征 向 量 x; 为 n 维 向 量 ,给 定 参数 的 
值 ,算法 将 这 些 样本 划分 成 个 集合 : 

S = {5,.5,.---.5,} 
最 优 分 配方 案 是 如 下 最 优化 问题 的 解 : 
mins >) У) || x—p || 


i=l x€S, 
其 中 ,jp; 为 类 中 心 向 量 。 这 个 问题 是 NP 难 问题 ,不 易 求 得 全 局 最 优 解 ,只 能 近似 求解 。 实 
现时 采用 迭代 法 ,只 能 保证 收敛 到 局 部 最 优 解 处 。 
算法 的 流程 如 下 。 


初始 化 上 个 类 的 中 心 向 量 j1 ope oe opa 
循环 ,直到 收敛 


SA 


z 4 
ыр 1 
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分 配 阶 段 。 根 据 当 前 的 类 中 心 估计 值 确 定 每 个 样本 所 属 的 类 : 
循环 ,对 每 个 样本 x; 

计算 样本 离 每 个 类 中 心 ци, 的 距离 : 

d; = || x, —; ll 

将 样本 分 配 到 距离 最 近 的 那个 类 
结束 循环 
更 新 阶段 。 更 新 每 个 类 的 类 中 心 : 
循环 ,对 每 个 类 

根据 上 一 步 的 分 配方 案 更 新 每 个 类 的 中 心 : 


1 


ш = 2 xj/ N; 


j=1yj=i 
结束 循环 
结束 循环 


其 中 ,yw 为 第 j 个 样本 的 类 别 ; N. 为 第 i 个 类 的 样本 数 。 

与 & 近 邻 算 法 一 样 , 这 里 也 依赖 于 样本 之 间 的 距离 ,因此 需要 定义 距离 的 计算 方式 ,最 
常用 的 是 欧 氏 距离 ,也 可 以 采用 其 他 距离 定义 ,这 在 第 6 章 已 经 介绍 。 算 法 在 实现 时 要 考虑 
下 面 几 个 问题 。 

(D 类 中 心 向 量 的 初 值 。 一 般 采 用 随机 初始 化 。 最 简单 的 是 Forgy 算法 , 它 从 样 
本 集中 随机 选择 个 样本 作为 每 个 类 的 初始 类 中 心 。 第 二 种 方案 是 随机 划分 , 它 将 所 有 样 
本 随机 地 分 配给 个 类 中 的 一 个 ,然后 按照 这 种 分 配方 案 计 算 各 个 类 的 中 心 向 量 。 

(2) 参数 的 设 定 。 可 以 根据 先 验 知识 人 工 指 定 一 个 值 ,或 者 由 算法 自己 确定 19。 

G) 迭代 终止 的 判定 规则 。 一 般 做 法 是 计算 本 次 迭代 后 的 类 中 心 和 上 一 次 迭代 时 的 类 
中 心 之 间 的 距离 ,如 果 小 于 指定 阔 值 , 则 算法 终止 。 

& 均 值 算 法 有 多 种 改进 版 本 ,包括 模糊 с 均值 聚 类 中 、 用 三 角 不 等 式 加速 中 , 感 兴趣 的 
读者 可 以 进一步 阅读 这 些 参 考 文献 。 


18.4 基于 概率 分 布 的 算法 


基于 概率 分 布 的 聚 类 算法 假设 每 个 簇 的 样本 服从 相同 的 概率 分 布 ,这 是 一 种 生成 模型 。 
经 常 使 用 的 是 多 维 正 态 分 布 ,如 果 服 从 这 种 分 布 , 则 为 第 16 章 介绍 的 高 斯 混合 模型 ,在 求解 
时 一 般 采 用 EM 算法 。 

EM 算法 中 即 期 望 最 大 化 算法 ,是 一 种 和 迭代 法 , 它 同时 估计 出 每 个 样本 所 属 的 簇 类 别 以 
及 每 个 艇 的 概率 分 布 的 参数 。 如 果 要 聚 类 的 样本 数据 服从 它 所 属 的 簇 的 概率 分 布 , 则 可 以 
通过 估计 每 个 徐 的 概率 分 布 以 及 每 个 样本 所 属 的 簇 来 完成 聚 类 。 估 计 每 个 簇 概 率 分 布 的 参 
数 需要 知道 哪些 样本 属于 这 个 簇 ,而 确定 每 个 样本 属于 哪个 簇 又 需要 知道 每 个 簇 的 概率 分 
布 的 参数 ,这 存在 循环 依赖 。EM 算法 在 每 次 迭代 时 交替 地 解决 上 面 的 两 个 问题 ,直至 收敛 
到 局 部 最 优 解 。 
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在 介绍 算法 之 前 首先 介绍 Jensen 不 等 式 ,后 面 的 推导 会 用 到 它 。 假 设 f(x) 是 凸 函数 ， 
x 是 随机 变量 , 则 下 面 的 不 等 式 成 立 : 
E(f(x)) > f(E(x)) 
如 果 f(x) 是 一 个 严格 凸 函数 , 当 且 仅 当 x 是 常数 时 不 等 式 取 等 号 ， 
E(f(x)) = f(E(x)) 

EM 算法 是 一 种 迭代 法 ,其 目标 是 求解 似 然 函数 或 后 验 概率 的 极 值 ,而 样本 中 具有 无 法 
观测 的 隐 仿 变量。 例如 ,有 一 批 样本 分 属于 3 个 类 ,每 个 类 都 服从 正 态 分 布 ,均值 和 协 方差 
未 知 ,并 且 每 个 样本 属于 哪个 类 也 是 未 知 的 ,需要 在 这 种 情况 下 估计 出 每 个 正 态 分 布 的 均值 
和 协 方差 。 图 18.2 是 一 个 例子 ,3 类 样本 都 服从 正 态 分 布 ,但 每 个 样本 属于 哪个 类 是 未 
知 的 。 











图 18.2 3 类 正 态 分 布 样本 .每 个 样本 所 属 类 别 未知 


样本 所 属 的 类 别 就 是 隐 变 量 , 这 种 隐 变 量 的 存在 导致 了 用 最 大 似 然 估 计 求 解 时 的 困难 。 

假设 有 一 个 概率 分 布 PCx;6), 从 它 生 成 了 /个 样本 。 每 个 样本 包含 观测 数据 * ,以 及 
无 法 观测 到 的 隐 变 量 z ,这 个 概率 分 布 的 参数 0 是 未 知 的 ,现在 需要 根据 这 些 样本 估计 出 参 
数 9 的 值 。 如 果 用 最 大 似 然 估 计 , 可 以 构造 出 对 数 似 然 函 数 : 


1 
L(0)= SJ Inp(x, 30) 
i=l 


= Sin) p Gy; 2:30) 

这 里 的 z, 是 一 个 无 法 观测 到 ( 即 人 们 不 知道 它 的 值 ) 的 隐 含 变量 ,是 离散 型 随机 变量 ， 
上 式 是 对 隐 含 变量 求 和 得 到 x 的 边缘 概率 。 因 为 隐 含 变量 的 存在 ,无 法 直接 通过 最 大 化 似 
然 函 数 得 到 参数 的 公式 解 。 可 以 采用 一 种 策略 ,构造 出 对 数 似 然 函 数 的 一 个 下 界 函 数 ,这 个 
下 界 函 数 更 容易 优化 ,然后 优化 这 个 下 界 。 不 断 地 改变 优化 变量 的 值 使 得 下 界 函 数 的 值 升 
高 ,从 而 使 得 对 数 似 然 函数 的 值 也 升 高 ,这 就 是 EM 算法 所 采用 的 思路 。 

对 每 个 样本 i, 假设 Q, 为 变量 z, 的 一 个 概率 分 布 ,根据 对 概率 分 布 的 要 求 它 必须 满足 

Mats) = 1 


©, (=) 20 
利用 这 个 概率 分 布 , 将 对 数 似 然 函 数 变 形 , 可 以 得 到 
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上 式 第 二 步 次 出 了 数学 期 望 的 形式 ,最 后 一 步 利 用 了 Jensen 不 等 式 。 令 


f(x) = Inr 
按照 数学 期 望 的 定义 (注意 ,在 这 里 =, 是 随机 变量 ), 有 


_ b xi, zi 0) _ [ (210 || 
In 22Q,GO Fl Bae (PBs 





Qt) 





XT PR CI П РА Ж, Dk AS ЗЕ R sr. Jensen 不 等 式 反 号 。 上 式 给 出 了 对 数 似 然 函数 
的 一 个 下 界 ,Q; 可 以 是 任意 一 个 概率 分 布 , 因 此 ,可 以 利用 参数 6 的 当前 估计 值 来 构造 Q;。 
显然 ,这 个 下 界 函 数 更 容易 求 极 值 ,因为 对 数 函 数 里 面 已 经 没有 求 和 项 。 

算法 在 实现 时 首先 随机 初始 化 参数 Ө 的 值 , 接 下 来 循环 迭代 ,每 次 迭代 时 分 为 两 步 。 

王 步 ,基于 当前 的 参数 估计 值 8; ,计算 在 给 定 x 时 对 的 条 件 概 率 : 

О, (21) = plz: | xi500 

M 步 , 求 解 如 下 极 值 问题 ,更 新 0 的 值 ; 

力 (xiyzi S 


8 = arg max 2; DIQ: z, In О, 


上 面 的 目标 函数 中 对 数 内 部 没有 求 和 项 ， 更 容易 求 得 0 的 公 由 于 Q, 可 以 是 任意 

个 概率 分 布 ,实现 时 Q, 可 以 按照 下 面 的 公式 计算 : 
To p(x; +230) 

* MpGi zi 

3x (C2 ТЕ KO ЭЧ ДЕ AU WU да Н AR P K A RUE 2 25 N JR E {Н КҮН СМЕ НОЕ 
明 。 假 设 第 上 次 迭代 时 的 参数 值 为 6,, 第 :十 1 次 迭代 时 的 参数 值 为 +: 。 如 果 能 证 明 每 次 
迭代 时 对 数 似 然 函 数 的 值 单调 增 , 即 

L(0,) < LCO) 
则 算法 能 收敛 到 局 部 极 值 点 。 由 于 在 迭代 时 选择 了 
Qi (zi) = рб; | xi;0,) 











因此 有 
biz) bGiz;500 plxi,zi;0) 
Q;(z;) plzi | x;0,)  pGoz ›0)/ рх; 30) 
XA z, 无 关 , 因 此 是 一 个 常数 ,从 而 保证 Jensen 不 等 式 可 以 取 等 号 。 因 此 ,有 下 面 的 等 
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从 而 有 
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bGiszi x 
ze. (=) ——— О, Сс 
= 三 

上 式 第 一 步 利 用 了 Jensen 不 等 式 , 第 二 步 成 立 是 因为 0,+1 是 函数 的 极 值 ,因此 ,会 大 于 
等 于 任意 点 处 的 函数 值 ; 第 三 步 在 上 面 已 经 做 了 说 明 ,是 Jensen 不 等 式 取 等 式 。 上 面 的 结 
论 保证 了 每 次 迭代 时 函数 值 会 上 升 ,直到 到 达 局 部 极 大 值 点 处 ,但 只 能 保证 收敛 到 局 部 
极 值 。 

下 面 介绍 EM 算法 在 高 斯 混合 模型 中 的 使 用 ,其 概念 在 第 16 章 中 已 经 介绍 。 假 设 有 一 
批 样本 Gi exe xi ,为 每 个 样本 x, 增加 一 个 隐 变 量 *; ,表示 样本 来 自 于 哪个 高 斯 分 布 。 
这 是 一 个 离散 型 的 随机 变量 , 取 值 范围 为 {1,2,…,k} , 取 每 个 值 的 概率 为 w;。 这 样 x; Az; 
的 联合 概率 可 以 写成 





biz) = plz) р(х; | z) 
Жр. ЛЕШ z, 的 概率 分 布 为 
plzi = j) = ш; 
为 了 确定 模型 的 参数 ,为 样本 集 构造 对 数 似 然 函 数 : 


1 
Lwy, E) = X np (x; seu. E) 
і=1 


1 k 
= У) ind) pæ | зв.) pG ste) 
i=1 z=1 


上 式 的 第 二 步 是 对 随机 变量 x; 求 边 缘 概率 。 对 于 每 个 样本 ,= 只 能 等 于 {1,2,…,k} 中 
的 某 一 个 值 。 上 面 的 对 数 似 然 函数 中 包含 了 变量 x; ,对 于 每 个 样本 来 说 ,这 个 值 是 未 知 的 ， 
因此 ,无 法 直接 通过 最 大 化 这 个 函数 而 确定 要 估计 的 参数 。 

但 是 如 果 已 经 知道 了 <, 的 值 , 则 可 以 通过 极 大 化 对 数 似 然 函 数 确定 ww 均值 向 量 ,以 
及 协 方差 矩阵 吓 。 可 以 将 对 数 似 然 函 数 分 开 写成 下 面 的 形式 : 





LGe a = Y sp | zis ED 十 InpCziizo)) 


对 参数 求 导 并 令 导 数 为 0， 可 以 得 到 参数 的 最 优 解 ， 但 是 在 这 里 z 是 未 知 的 。 如 果 使 用 
EM 算法 求解 ,在 下 步 中 猜测 变量 <, 的 值 。 在 M 步 中 ,根据 这 个 猜测 值 确定 w, 均 值 向 量 
及 :以 及 协 方差 矩阵 互 的 值 , 此 时 对 数 函 数 中 已 经 没有 求 和 项 ,可 以 得 到 公式 解 。 算 法 流程 
如 下 。 


EE 步 ,根据 模型 参数 的 当前 估计 值 ,计算 第 i 个 样本 来 自 第 j 个 高 斯 分 布 的 概率 : 
q; = plzi = j | x; sue, n.) 
M 步 ,计算 模型 的 参数 。 权 重 的 计算 公式 为 
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均值 的 计算 公式 为 





协 方差 的 计算 公式 为 
1 
Уа (x; = шу) (x; ы)" 
і=1 ; 

Уа 

і=1 


£ E DP tt q; Hit 38 it 2 B £ 2 & 35 W =} 36 2 < а] 
p(x: | zi = js D ple = jiw) 
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>, 


Д 











plz, = j | хш...) 
Ss p(x; | zi = esp E) plz; = суш) 
< 一 1 


gs 是 根据 参数 的 当前 估计 值 而 计算 出 来 的 对 zz; 的 猜测 值 。 
18.5 基于 密度 的 算法 


基于 密度 的 聚 类 算法 的 核心 思想 是 根据 样本 点 某 一 邻 域内 的 邻居 数 定义 样本 空间 的 密 
度 , 这 类 算法 可 以 找 出 空间 中 形状 不 规则 的 簇 ,并 且 不 用 指定 徐 的 数量 。 算 法 的 核心 是 计算 
每 一 点 处 的 密度 值 ,以 及 根据 密度 来 定义 簇 。 


18.5.1 DBSCAN 算法 


DBSCAN 算法 外 是 一 种 基于 密度 的 算法 ,可 以 有 效 地 处 理 噪声 ,发 现任 意 形 状 的 簇 。 
它 将 簇 定义 为 样本 点 密集 的 区 域 .算法 从 一 个 种 子 样本 开始 ,持续 向 密集 的 区 域 生 长 ,直至 
到 达 边 界 。 

算法 使 用 了 两 个 人 工 设 定 的 参数 s 和 M ,前 者 是 样本 点 邻 域 的 半径 ,后 者 是 定义 核心 点 
的 样本 数 阔 值 。 下 面 介 绍 它们 的 概念 。 

假设 有 样本 集 X — Qa exe rmx) ,样本 点 x 的 e 邻 域 定义 为 样本 集中 与 该 样本 的 距离 
小 于 等 于 e 的 样本 构成 的 集合 

М,(х) = (y € X:d(x,y) Se} 

其 中 ,d(x,y) 是 两 个 样本 之 间 的 距离 ,可 以 采用 任何 一 种 距离 定义 。 样 本 的 密度 定义 为 它 


f) e 邻 域 的 样本 数 : 
p(x) = |N. | 
密度 是 一 个 非 负 整数 。 核 心 点 定义 为 数据 集中 密度 大 于 指定 阔 值 的 样本 点 , 即 如果 
p(x) > М 


则 称 x 为 核心 点 ,核心 点 是 样本 分 布 密集 的 区 域 。 样 本 集 X 中 所 有 的 核心 点 构成 的 集合 为 
X。, 非 核心 点 构成 的 集合 为 X,. 。 如 果 x 是 非 核心 点 ,并 且 它 的 s 邻 域 内 存在 核心 点 , 则 称 x 
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为 边界 点 ,边界 点 是 密集 区 域 的 边界 。 如 果 一 个 点 既 不 是 核心 点 ,也 不 是 边界 点 , 则 称 为 品 
FE gà, Ig ei ge PEAS B Bü BJ PC a o 

ШЖ x А у 在 它 的 s 邻 域内 , 则 称 у 是 从 x 直接 密度 可 达 的 。 对 于 样本 集中 的 
一 组 样本 zz ，… ox, WR хо ЕМ x; 直接 密度 可 达 的 , 则 称 x, 是 从 xi 密度 可 达 的 。 密 
度 可 达 是 直接 密度 可 达 的 推广 。 

对 于 样本 集中 的 样本 点 x、y 和 z, 如 果 y 和 z 都 从 x 密度 可 达 , 则 称 它们 是 密度 相连 的 ， 
根据 定义 ,密度 相连 具有 对 称 性 。 

基于 上 面 的 概念 可 以 给 出 簇 的 定义 。 样 本 集 C 是 整个 样本 集 的 一 个 子 集 ,如 果 它 满足 
下 列 条 件 : 对 于 样本 集 X 中 的 任意 两 个 样本 x EL y SUD x € C. H y 是 从 x 密度 可 达 的 , 则 
yEC; 如 果 xEC,yEC, 则 x Al y 是 密度 相连 的 , 则 称 集合 C 是 一 个 入 。 

根据 复 的 定义 可 以 构造 出 聚 类 算法 ,具体 做 法 是 从 某 一 核心 点 出 发 ,不 断 向 密度 可 达 的 
区 域 扩张 ,得 到 一 个 包含 核心 点 和 边界 点 的 最 大 区 域 ,这 个 区 域 中 任意 两 点 密度 相连 。 

假设 有 样本 集 X, 聚 类 算法 将 这 些 样 本 划分 成 K 个 簇 以 及 噪声 点 的 集合 ,其 中 ,K 由 算 
法 确定 。 每 个 样本 要 么 属于 这 些 簇 中 的 一 个 ,要 么 是 噪声 点 。 定 义 变量 m; 为 样本 x, 所 属 
的 簇 ,如 果 它 属于 第 j E. DU m 的 值 为 j ,如 果 它 不 属于 这 些 簇 中 的 任何 一 个 , 即 是 噪声 
点 , 则 其 值 为 一 1,m; 就 是 聚 类 算法 的 返回 结果 。 变 量 & 表示 当前 的 簇 号 ,每 发 现 一 个 新 的 
fk HAED 1。 聚 类 算法 的 流程 如 下 。 


第 一 阶段 ,初始 化 
计算 每 个 样本 的 领域 N, Cx; ) 
令 k=1,m; 二 0, 初 始 化 待 处 理 样本 集合 [一 {1,2,…,N} 
第 二 阶段 ,生成 所 有 的 猴 
循环 , 当 了 不 为 空 
从 了 中 取出 一 个 样本 i, 并 将 其 从 集合 中 删除 
如 果 i 没 被 处 理 过 , 即 т, =0 
初始 化 集合 T— №, (x) 
如 果 i 为 非 核 心 点 
A mi 三 一 1, 暂 时 标记 为 噪声 
如 果 即 i 为 核心 点 
+ mi 二 k, 将 当前 徐 编 号 赋予 该 样本 
MR ATRAZ 
ARET P T ACGRUR РАТА 
如 果 mj 二 0 或 mj 二 一 1 
令 т; =k 
如 果 了 是 核心 点 
将 j 的 邻居 集合 N.(x;) 加 入 集合 芽 
结束 循环 
4 k=kt+1 











结束 循环 
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算法 的 核心 步骤 是 依次 处 理 每 一 个 还 未 标记 的 点 ,如果 是 核心 点 , 则 将 其 邻居 点 加 入 到 
连接 集合 中 ,反复 扩张 ,直到 找到 一 个 完整 的 簇 。 

在 实现 时 有 几 个 问题 需要 考虑 ,第 一 个 问题 是 如 何 快速 找到 一 个 点 的 所 有 邻居 集合 ,可 
JA RARA KD 树 等 数据 结构 加 速 。 第 二 个 问题 是 参数 。 和 М 的 设 定 ,e 的 取 值 在 有 些 
时 候 非 常 难以 确定 ,而 它 对 聚 类 的 结果 有 很 大 影响 。M 值 的 选择 有 一 个 指导 性 的 原则 ,如 
果 样 本 向 量 是 n 维 的 , 则 M 的 值 至 少 是 十 1。 

DBSCAN 无 须 指 定 簇 的 数量 ,可 以 发 现任 意 形 状 的 簇 ,并 且 对 噪声 不 敏感 。 其 缺点 是 
聚 类 的 质量 受 距离 函数 的 影响 很 大 ,如 果 数 据 维 数 很 高 ,将 面临 维 数 灾难 的 问题 。 参 数 。 和 
M 的 设 定 有 时 候 很 困难 。 


18.5. OPTICS 算法 


OPTICS 算法 外 是 对 DBSCAN 算法 的 改进 ,对 参数 更 不 敏感 。 它 不 直接 生成 得 ,而 是 
对 样本 进行 排序 ,从 这 个 排序 可 以 得 到 各 种 邻 域 半 径 s 和 密度 阔 值 M 时 的 聚 类 结果 。 
OPTICS 算法 复 用 了 DBSCAN 的 一 些 概念 , 除 此 之 外 ,还 定义 了 两 个 新 的 概念 。 给 定 
参数 。 和 M ,使 得 样本 x 成 为 核心 点 的 最 小 邻 域 半径 称 为 x 的 核心 距离 , 即 
UNDEFINED. |N,(x)| < M 
d(x,NM(x)), | Мо) | 2M 
其 中 ,Ni(x) 为 x 的 e 邻 域内 距离 它 第 i 近 的 点 。 按 照 定义 ,如 果 x 是 核心 点 , 则 其 核心 距离 
小 于 等 于 e, 否 则 核心 距离 没有 定义 。 给 定 样 本 集中 的 两 个 点 x 和 y,y 对 于 x 的 可 达 距 离 


cd(x) = | 


UNDEFINED. |N.(x)| < M 
max(cd(x),d(x.y)), [|N,G)| >M 

如 果 x 是 核心 点 ,y 对 它 的 可 达 距 离 是 x 的 核心 距离 与 y 和 x 之 间 的 距离 的 最 大 值 ,如 
果 不 是 核心 点 则 该 值 未 定义 。 这 是 使 得 x 成 为 核心 点 ,并 且 y 从 x 直接 密度 可 达 的 最 小 邻 
域 半径 。 显 然 ,可 达 距 离 与 参考 点 x 有关. 不 同 的 x 将 导致 不 同 的 计算 结果 。 可 达 距 离 和 y 
点 处 的 密度 有 关 , 密 度 越 大 , 它 从 邻居 节点 直接 密度 可 达 的 距离 越 小 。 聚 类 时 同样 向 密集 的 
区 域 扩 张 ,优先 考虑 可 达 距 离 小 的 样本 。 

给 定 样本 集 X= (i xs nx 2 ,以 及 人 工 设 定 的 参数 e 和 M,OPTICS 算法 输出 所 有 
样本 的 一 个 排序 ,以 及 每 个 样本 的 核心 距离 .可 达 距 离 。 其 中 ,第 i 个 样本 在 输出 序列 中 的 
位 置 为 p;, 它 的 核心 距离 为 c;, 可 达 距 离 为 r;。 辅 助 数 组 о, 表示 第 i 个 样本 是 否 被 处 理 过 ， 
用 于 算法 的 实现 。 算 法 维持 了 一 个 列表 seedList, 存 储 所 有 待 处 理 的 样本 , 按 样本 点 离 它 最 
近 直 接 密度 可 达 的 核心 点 的 可 达 距 离 升序 排列 。 

算法 依次 处 理 每 一 个 没有 被 处 理 的 点 ,如 果 是 核心 点 , 则 按照 可 达 距 离 升序 的 顺序 依次 
扩展 到 每 一 个 能 到 达 的 新 的 点 。OPTICS 算法 的 流程 如 下 。 


第 一 阶段 : 初始 化 
计算 每 个 样本 的 邻 域 NeCxi) 

计算 每 个 样本 的 核心 距离 ci 

将 所 有 样本 的 处 理 标 志 ш, 初始 化 为 0 


rd(y,x) = | 
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将 所 有 样本 的 可 达 距 离 r 初始 化 为 UNDEFINED 
令 & 一 1, 待 处 理 样本 的 集合 初始 化 为 [二 {1,2,…,N} 
第 二 阶段 : 输出 排序 
循环 , 当 了 中 还 有 样本 未 处 理 
从 了 中 取出 一 个 样本 i, 将 i 从 J 中 删除 
如 果 vw; 二 0, 即 样本 没 被 处 理 过 
A v =l, p —ik—kl 
如 果 i 是 核心 点 
调用 insert(N,(x;).seedlist) ,将 N.(x;) 中 未 处 理 点 插入 列表 
循环 , 当 列 表 seedList 不 为 空 
从 seedList 中 取出 第 一 个 样本 j 
4 o =1,b=;j,k=k+1 
如 果 了 是 核心 点 
调用 insert(N,(x;),seedlist) ,将 Ne(x;) 中 未 处 理 点 插入 列表 
结束 循环 
结束 循环 


注意 ,这 里 的 e 只 用 于 生成 样本 的 顺序 ,真正 的 聚 类 使 用 另 一 个 邻 域 半 径 阔 值 。 函 数 
insert 将 一 个 样本 点 邻 域 集合 中 的 所 有 未 处 理 点 按照 可 达 距 离 插入 到 列表 中 。 这 里 分 两 种 
情况 ,如 果 之 前 没有 计算 过 可 达 距 离 , 则 直接 按照 本 次 计算 的 可 达 距 离 将 样本 插 和 人 列表 ,和 否 
则 取 之 前 的 可 达 距 离 与 本 次 可 达 距 离 的 最 小 值 , 即 使 用 从 最 近 的 那个 核心 点 计算 出 来 的 可 
达 距 离 。 算 法 处 理 流程 如 下 : 


循环 ,对 N.(xi) 中 的 所 有 样本 i 
如 果 o, = 0 
计算 i 对 k 的 可 达 距 离 rd=max(cd,.d(x,.x,)) 
Je r; A UNDEFINED 
А r, = rd 
将 i 按照 可 达 距 离 值 插入 到 seedList 列表 中 的 适当 位 置 
否则 
如 果 rd<r; 
4 ri — rd 
F i j B8 sJ GA ЯР Ж (Ë 45 5| seedList 列表 中 的 适当 位 置 
结束 循环 


算法 返回 的 序列 是 按照 所 有 点 对 各 个 种 子 点 的 可 达 距 离 升 序 排序 的 。 如 果 将 横 坐 标 设 
为 有 序 样 本 的 编号 , 纵 坐 标 为 可 达 距 离 , 则 寻找 每 个 谷底 的 位 置 可 以 得 到 聚 类 结果 。 这 里 需 
要 一 个 人 工 设 定 的 参数 e ,并 且 要 保证 ee, 这 是 聚 类 时 使 用 的 最 小 邻 域 半径 。 算 法 依次 
处 理 OPTICS 算法 返回 的 有 序列 表 中 的 每 个 样本 ,如 果 其 可 达 距 离 大 于 e , 则 认为 是 一 个 新 
的 簇 的 开始 ,因为 它 不 能 被 加 入 到 之 前 被 处 理 的 那些 那 边 所 在 的 簇 中 。 这 里 又 分 两 种 情况 ， 
如 果 其 可 达 距 离 小 于 e, 则 是 一 个 新 的 簇 ,否则 是 噪声 。 如 果 可 达 距 离 小 于 e , 则 把 样本 加 入 
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到 已 经 存在 的 簇 中 ,因为 它 和 前 面 的 样本 是 密度 可 达 的 。 
与 DBSCAN 算法 相同 ,用 变量 т, 标记 对 每 个 样本 的 分 配 结果 。 根 据 排序 结果 生成 聚 
类 结果 的 算法 流程 如 下 : 


初始 化 clusertID= —1,k=1 
循环 ,对 i 一 1,2,…，N, 依 次 处 理 有 序列 表 中 的 每 个 样本 
如 果 re 
do c < 
clusterID=k,k=k 二 1.m;=clusterID 
否则 
m,=—1 
否则 
m;=clusterID 


结束 循环 


clusterID 为 当前 得 号 ,每 生成 一 个 新 的 篮 , 其 值 加 1。 算 法 执行 结束 之 后 得 到 每 个 样本 
的 簇 编 号 ,与 DBSCAN 算法 一 样 , 它 要 么 属于 某 一 个 簇 ,要 么 是 噪声 。 


18.5.8 Mean Shift 算法 


均值 漂移 (Mean Shift) $E 50779 AE J Bz 8 HE fh YE TER Je — Fh 3: 3E ЖЕ ЛЕ PR AL 
点 的 算法 。 它 在 聚 类 分 析 、 图 像 分 割 、 视 觉 目 标 跟踪 中 都 有 应 用 。 在 用 于 聚 类 任务 时 , 它 寻 
找 概率 密度 函数 的 极 大 值 点 , 即 样本 分 布 最 密集 的 位 管 , 以 此 得 到 簇 。 

对 于 某 些 应 用 ,人 们 不 知道 概率 密度 函数 的 具体 形式 ,但 有 一 组 采样 自 此 分 布 的 离散 样 
本 数据 , 核 密度 估计 可 以 根据 这 些 样本 值 估计 概率 密度 函数 ,均值 漂移 算法 可 以 找到 概率 密 
度 函 数 的 极 大 值 点 。 与 之 前 介绍 的 数值 优化 算法 一 样 ,这 也 是 一 种 迭代 算法 ,从 一 个 初始 点 
x 开始 ,按照 某 种 规则 移动 到 下 一 点 ,直到 到 达 极 值 点 处 。 

假设 及 n 个 样本 点 x; ,i 二 1,2,…,n, 由 核 函数 与 窗口 半径 hh 定义 的 核 密度 估计 函数 为 


fe 
p(x) = лк i ) 


4 为 向 量 的 维 数 。 这 里 使 用 了 核 两 数 
х— x; 
d) 


最 常用 的 是 高 斯 核 。 要 找到 概率 密度 函数 的 极 大 值 点 , 即 寻 找 核 密度 函数 的 极 大 值 点 ， 
可 以 采用 梯度 上 升 法 (与 梯度 下 降 法 相反 ,在 这 里 沿 着 梯度 方向 迭代 ) ,可 以 证 明 , 其 梯度 为 


如 下 形式 : 
but =y); 
m= — 
Set: — x) 
其 中 ， 


g(x) =— K'(x) 
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其 中 ,m 称 为 均值 漂移 向 量 , 均 值 漂移 算法 反复 使 用 下 面 的 公式 进行 迭代 : 

х=х+т 
直到 收敛 到 最 极 值 点 处 。 在 聚 类 时 ,从 某 一 初始 点 开始 ,反复 用 均值 漂移 算法 进行 迭代 , 直 
到 到 达 密 度 最 大 的 点 处 ,这 就 找到 了 一 个 簇 。 


18.6 基于 图 的 算法 


基于 图 的 算法 把 样本 数据 看 作 图 的 顶点 ,根据 数据 点 之 间 的 距离 构造 边 , 形 成 带 权重 的 
图 。 通 过 图 的 切割 实现 聚 类 ,即将 图 切 分 成 多 个 子 图 ,这 些 子 图 就 是 对 应 的 徐 。 这 类 算法 的 
典型 代表 是 谱 聚 类 算法 1。 谱 聚 类 算法 首先 构造 样本 集 的 邻接 图 ,得 到 图 的 拉 普 拉 斯 矩 
阵 , 这 和 7.3 节 中 介绍 的 方法 相同 。 接 下 来 对 矩阵 进行 特征 值 分 解 ,通过 对 特征 向 量 进行 处 
理 构造 出 簇 。 
算法 首先 根据 样本 集 构造 出 带 权 重 的 图 G, 聚 类 算法 的 目标 是 将 其 切割 成 多 个 子 图 。 
假设 图 的 顶点 集合 为 了, 边 的 集合 为 已 。 聚 类 算法 将 顶点 集合 切 分 成 上 《个子 集 ,它们 的 并 集 
是 整个 顶点 集 : 
Vi Пу» U V, =V 
任意 两 个 子 集 之 间 的 交集 为 空 ; 
VNV=$, Wig iki 
对 于 任意 两 个 子 图 ,其 顶点 集合 分 别 为 A 和 B, 它 们 之 间 的 切 图 权重 定义 为 连接 两 个 
子 图 节点 的 所 有 边 的 权重 之 和 : 
W(A'B)= У) wy 


i€Aj€B 

这 可 以 看 作 两 个 子 图 之 间 的 关联 程度 ,如 果 两 个 子 图 之 间 没 有 边 连 接 , 则 这 个 值 为 0。 
从 另 一 个 角度 看 ,这 是 对 图 进行 切割 时 去 掉 的 边 的 权重 之 和 。 对 图 顶点 的 子 集 Vi,V:，…， 
V, ,定义 这 种 分 割 的 代价 为 


k 
cut V; VO = WV) 
i=l 


Heh. V: 为 V 的 补 集 。 这 个 值 与 聚 类 的 目标 一 致 , 即 每 个 子 图 内 部 的 连接 很 强 , 而 子 图 之 
间 的 连接 很 弱 。 直 接 通 过 最 小 化 这 个 值 完 成 聚 类 还 有 问题 , 它 没有 考虑 子 图 规模 对 代价 函 
数 的 影响 ,使 得 这 个 指标 最 小 的 切 分 方案 不 一 定 就 是 最 优 切 割 。 
解决 这 个 问题 的 方法 是 对 代价 函数 进行 归 一 化 。 第 一 种 方法 是 用 图 的 顶点 数 进行 归 一 
化 ,由 此 得 到 优化 的 目标 为 
еш, Voss Vy = +> EI 
其 中 ,|V; | 为 子 集 的 元 素数 量 。 最 后 归结 为 求解 矩阵 的 特征 值 和 特征 向 量 问题 。 另 外 一 种 
方案 也 采用 了 归 一 化 项 : 
1 WVV 
cut(VisVz ,Vi) = 22 ко 
其 中 ,vol 是 图 中 所 有 顶点 的 加 权 度 之 和 : 
vol(V) = i d; 
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加 权 度 的 概念 在 7. 3 节 中 已 经 介绍 。 对 于 上 面 两 种 情况 的 目标 函数 ,都 可 以 转化 成 求 
解 归 一 化 后 的 拉 普 拉 斯 矩阵 的 特征 值 问题 。 scis Mine E g pud 保留 
k 个 最 小 的 特征 值 和 它们 对 应 的 特征 向 量 ,构成 一 个 nX&k 的 矩阵 ,和 矩阵 的 每 一 行为 降 维 后 
的 样本 数据 。 an ete 


18.7 算法 评价 指标 


与 有 监督 学 习 算法 一 样 , 需 要 对 聚 类 算法 的 效果 进行 评估 。 由 于 聚 类 算法 要 处 理 的 样 
本 可 能 没有 人 工 标定 的 标签 值 , 因 此 需要 定义 其 特有 的 评价 指标 。 这 些 指标 可 以 分 为 内 部 
指标 和 外 部 指标 两 种 类 型 。 


18.7.1 内 部 指标 


内 部 指标 只 用 算法 对 聚 类 样本 的 处 理 结 果 来 评价 聚 类 的 效果 ,不 依赖 于 事先 由 人 工 给 
出 的 标准 聚 类 结果 ,因此 , 它 完全 由 聚 类 算法 的 内 部 结果 而 定 。 下 面 介绍 几 种 常用 的 指标 。 
Davies-Bouldin 指标 定义 为 


IY mas Zt) 


5) 
其 中 ,n AR AY ACHE se; 是 第 i ПРА ;0; 是 第 i AP TR RI Г FE À АХ ЛК PAL Лб BJ 3F- PJ 
距离 ;d(ci,cj) 是 第 i 个 驴 的 质心 与 第 j 个 簇 的 质心 之 间 的 距离 。 上 式 中 的 求 和 项 是 簇 内 差 
与 复 间 差异 的 比值 ,这 个 指标 值 越 大 , 聚 类 效果 越 差 ,反之 则 越 好 。 
Dunn 指标 是 徐 间 距离 的 最 小 值 与 徐 内 距离 的 最 大 值 之 间 的 比值 ,计算 公式 为 


тіп (isj) 
maxjiee,d (k) 


其 中 ,d(i,j) 为 第 i 个 簇 与 第 j AP STI f IRL EE T а ORB k AI HU A PEAS. X e LU ELE 
K ЙЯ f Z ЇН] EA Е FE kR R E ВСЯ ER tf; 2 2 BES FAR BOE , 


18.7.2 ”外 部 指标 


外 部 指标 用 事先 定义 好 的 聚 类 结果 来 评价 算法 的 处 理 效果 , 它 的 计算 依赖 于 人 工 标定 
结果 。 下 面 介 绍 几 种 典型 的 指标 。 

纯度 定义 了 一 个 簇 包 含 某 一 个 类 的 程度 , 即 这 个 簇 内 的 样本 是 否 都 属于 同一 个 类 ,类 似 
于 决策 树 中 的 纯度 指标 。 定 义 为 


x2 maxzep |m N d| 


其 中 ,M 是 人 工 划 分 的 簇 ， D JACEE AH N 为 样本 数 。 这 个 指标 反映 了 算法 聚 类 
ес та мшген сены! p 测度 定义 了 算法 划 
分 的 结果 与 人 工 划分 结果 之 间 的 耦合 程度 ,定义 为 


TP+ TN 
m aa 


公式 中 的 4 个 值 定义 与 3. 2 节 相同 。 这 个 指标 值 越 大 , 聚 类 结果 与 人 工分 类 结果 越 相 
似 。Jaccard a A uH EAM IOU 指标 ,定义 为 
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这 个 值 越 大 ,说 明 两 个 集合 的 重合 度 越 高 , 即 算法 聚 类 的 结果 与 人 工 聚 类 的 结果 越 接 
近 , 聚 类 效果 越 好 。 








18.8 应 用 


聚 类 算法 有 很 多 实际 应 用 的 案例 。 在 自然 语言 处 理 的 文本 分 析 ” 2 ,机 器 视觉 中 的 图 
(aR) 与 视频 分 析 5 问题 基因 数据 分 析 25 等 问题 中 都 有 它 的 应 用 。 图 像 分 割 问题 
也 可 以 看 做 是 聚 类 问题 ,将 所 有 像素 划分 成 几 个 类 别 。 
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第 19 == 
半 监 督学 习 


第 3 章 介绍 了 半 监 督学 习 的 概念 。 它 的 训练 样本 中 只 有 少量 带 有 标签 值 , 算 法 要 解决 
的 核心 问题 是 如 何 有 效 地 利用 无 标签 的 样本 进行 训练 。 本 质 上 , 半 监 督学 习 也 是 要 解决 有 
监督 学 习 所 处 理 的 问题 。 实 践 结果 证 明 , 使 用 大 量 无 标签 样本 ,配合 少量 有 标签 样本 ,可 以 
有 效 提高 算法 的 精度 。 在 有 些 实际 应 用 中 ,样本 的 获取 成 本 不 高 ,但 标注 成 本 非常 高 ,这 类 
问题 适合 使 用 半 监 督学 习 算 法 。 

有 监督 学 习 中 一 般 假设 样本 独立 同 分 布 。 从 样本 空间 中 抽取 /个 样本 用 于 训练 ,它们 
带 有 标签 值 。 另 外 从 样本 空间 中 抽取 u 个 样本 ,它们 没有 标签 值 。 半 监督 学 习 5 要 利用 
这 些 数据 进行 训练 ,得 到 比 只 用 /个 样本 更 好 的 效果 。 


19.1 问题 假设 


要 利用 无 标签 样本 进行 训练 ,必须 对 样本 的 分 布 进行 假设 。 例 如 ,对 于 人 脸 识别 问题 ， 
如 果 一 个 未 标注 的 人 脸 图 像 属于 某 一 个 人 , 则 它 和 已 标注 的 样本 一 样 要 服从 某 种 分 布 , 即 符 
合 这 个 人 的 特点 。 半 监督 学 习 算 法 根据 此 假设 来 使 用 未 标注 样本 ,下 面 介 绍 常用 的 假设 。 


19.1.1 连续 性 假设 


在 数学 中 连续 性 指 自 变量 的 微小 改变 不 会 导致 函数 值 的 大 幅度 改变 。 这 里 的 连续 性 假 
设 利 用 了 同样 的 思想 ,距离 近 的 样本 具有 相同 的 标签 值 , 这 是 符合 常规 的 一 条 假设 。 在 有 监 
督学 习 中 也 使 用 了 这 一 假设 ,如 近邻 算法 假设 一 个 样本 和 它 的 邻居 点 有 相同 的 类 型 。 


19.1.2 BRIE 


这 一 假设 的 定义 : 样本 点 形成 一 些 离散 的 簇 ,同一 个 簇 中 的 样本 更 可 能 是 同一 种 类 型 
的 。 需 要 注意 的 是 同一 个 类 型 的 样本 可 能 分 布 在 多 个 簇 中 。 


19.1.3 流 形 假设 


这 和 第 7 章 介 绍 的 流 形 降 维 算 法 中 提出 的 假设 相同 ,样本 在 高 维 空间 中 的 分 布 近似 位 
于 低 维 空间 的 流 形 上 。 在 这 种 情况 下 ,可 以 用 有 标签 和 无 标签 的 样本 学 习 这 个 流 形 。 


19.1.4” 低 密度 分 割 假设 


对 于 分 类 问题 ,这 里 假设 决策 边界 位 于 样本 空间 的 低 密度 区 域 . 即 两 个 不 同类 之 间 的 边 
Ft KBR Н) ЕЕ ЖЕ Fü Bü „ 
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19.2 启发 式 算法 


启发 式 算法 是 最 简单 的 半 监 督学 习 算法 , 它 的 核心 思想 是 先 用 有 标签 样本 进行 训练 , 然 
后 用 训练 得 到 的 模型 对 无 标签 样本 进行 预测 ,从 中 挑选 出 一 部 分 样本 继续 进行 训练 ,以 提升 
模型 的 精度 。 


19.2.1 Ві 


自 训练 (Self-Training, 也 称 为 自 标记 ) 中 是 最 简单 的 半 监 督学 习 算法 。 其 做 法 是 用 有 
标签 样本 训练 一 个 模型 ,然后 对 无 标签 样本 进行 预测 ,得 到 这 些 样 本 的 伪 标 签 。 挑 选 出 预测 
置信 度 高 的 部 分 样本 加 入 到 训练 集 继续 训练 模型 ,重复 这 一 步骤 直至 结束 。 


19.2.2 协同 训练 


协同 训练 (Co-Training) 中 将 有 标签 样本 的 特征 集 划 分 成 两 个 子 集 , 然 后 用 这 些 子 集训 
练 两 个 分 类 器 ,再 用 这 些 分 类 器 对 没有 标签 的 样本 进行 预测 ,挑选 出 置信 度 高 的 样本 ,加 入 
到 另 一 个 分 类 器 的 训练 集中 继续 训练 。 


19.3 生成 模型 


有 监督 学 习 的 生成 模型 首先 估计 每 个 类 的 条 件 概 率 密度 函数 ,然后 根据 贝 叶 斯 公式 得 
到 样本 属于 每 个 类 的 概率 。 半 监督 学 习 的 生成 模型 是 这 种 方法 的 推广 , 它 假设 有 标签 样本 
和 无 标签 样本 由 相同 的 概率 分 布 生成 , 即 聚 类 假设 。 根 据 这 一 假设 ,可 以 将 无 标签 样本 与 概 
率 分 布 关 联 起 来 ,它们 的 标签 是 缺失 变量 ,可 以 用 EM 算法 求解 。 

生成 模型 假设 每 个 类 的 样本 服从 概率 分 布 p(x |y;0) ,其 中 ,0 是 概率 密度 函数 的 参数 。 
如 果 无 标签 样本 与 有 标签 样本 来 自 同一 概率 分 布 , 则 将 这 些 无 标签 样本 加 上 推测 出 来 的 标 
签 值 之 后 作为 训练 样本 能 够 提高 模型 的 准确 率 。 如 果 这 一 假设 不 正确 ,用 推理 出 来 的 错误 
标签 进行 模型 训练 反而 会 降低 模型 的 准确 率 。 

无 标签 样本 由 每 个 类 的 概率 分 布 的 混合 来 生成 ,常用 的 是 高 斯 混合 模型 ,假设 每 个 类 的 
数据 服从 正 态 分 布 。 样 本 数据 与 标签 值 的 联合 概率 密度 函数 可 以 由 类 的 条 件 概率 密度 函数 
得 到 

pay | 0) = ply | Op | y.0) 

每 个 类 的 参数 向 量 9 的 值 是 要 确定 的 参数 ,利用 有 标签 样本 和 无 标签 样本 得 到 , 即 求解 

下 面 的 最 优化 问题 : 

maxe(Inp( {х;у}. | 0)-ЕАЇпр({х;.у;} н | 0)) 
其 中 ,4 FEA TAR EY BB 1 ,xs，… .x ЖЕ EAR xii Xie s kr ETA 
在 实现 时 一 般 采 用 EM Ж.Р FG EUG bs 3 EE fci h — 48 2C SR Ji fE E 2b rn HJ x Be 
参数 对 无 标签 样本 进行 标记 ,最 后 在 M 步 中 用 所 有 样本 重新 估计 参数 并 更 新 参数 。 在 得 到 
无 标签 样本 的 标签 值 之 后 ,将 它们 加 入 到 训练 集中 继续 训练 。 
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半 监 督 支持 向 量 机 (Transduetive SVM,TSVMD)og 是 标准 支持 向 量 机 的 半 监督 学 习 版 
本 , 它 可 以 用 部 分 标注 的 样本 进行 训练 ,找到 的 分 界面 是 样本 稀 琉 的 地 方 ,使 用 了 低 密 度 分 
割 假设 。 半 监督 支持 向 量 机 的 目标 是 对 无 标签 样本 进行 预测 ,使 得 分 类 间隔 对 所 有 样本 最 
大 化 。 在 这 里 用 有 标签 样本 集 D 进行 训练 ,对 无 标签 集 进 行 测试 ， 

D’ = {xi}. i1=1,2,.%,k 


19.4 低 密度 分 割 


训练 时 求解 的 问题 为 


min} || wll? 


2 
yi(w'x; +b) >1—& 
yj (wx) +6) 221—5 
实现 时 首先 用 带 标签 的 样本 进行 训练 ,然后 用 得 到 的 模型 对 无 标签 样本 进行 预测 ,得 到 
这 些 样本 的 伪 标 签 值 y; 。 接 下 来 再 用 这 无 标签 的 样本 进行 训练 得 到 新 的 模型 。 
在 图 19. 1 中 矩形 为 无 标签 样本 , 半 监 督 支持 向 量 机 将 它们 和 圆 形 的 有 标签 样本 一 同 考 
虑 ,保证 分 类 间隔 最 大 化 。 











图 19.1 半 监 督 支持 向 量 机 示意 图 


19.5 基于 图 的 算法 


基于 图 的 算法 为 样本 构造 带 权 重 的 无 向 图 ,用 图 表示 有 标签 和 无 标签 样本 数据 ,图 的 构 
造 和 7.3.2 节 的 流 形 降 维 算法 相同 。 图 的 顶点 是 有 标签 样本 或 无 标签 样本 , 边 的 权重 为 样 
本 之 间 的 相似 度 。 建 立 图 之 后 可 以 得 到 它 的 拉 普 拉 斯 矩阵 ,通过 优化 某 一 目标 函数 得 到 模 
型 参数 。 分 类 函数 要 保证 对 有 标签 样本 预测 正确 ,对 于 图 的 点 的 预测 结果 是 连续 的 , 即 满足 
连续 性 假设 ,这 通过 引入 正则 化 项 来 实现 。 

流 形 正则 化 算法 假设 每 个 类 的 有 标签 样本 和 无 标签 样本 分 布 在 同一 个 流 形 M 上 。 训 
练 时 要 求解 的 问题 为 


minen (ECL) 0 БАА NAP А l Vf (x) ldpco ] 
其 中 ,为 有 标签 的 训练 样本 数 M 为 样本 所 在 的 流 形 。 
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损失 函数 的 第 一 项 是 对 有 标签 样本 的 分 类 损失 。 第 二 项 是 预测 函数 的 正则 化 项 ,用 于 
控制 预测 函数 的 复杂 度 。 第 三 项 是 流 形 正则 化 项 ,用 于 实现 流 形 假设 , 即 有 标签 样本 与 无 标 
签 样本 分 布 在 同一 个 流 形 上 。 其 中 , 互 为 再 生 核 希 尔 伯 特 空间 ,MA FLA, 是 正则 化 项 系数 。 
流 形 正则 化 项 由 图 的 拉 普 拉 斯 二 次 型 来 近似 , 即 


ltu Itu 


FLf = У) У) fy =Í. || Vuf Cx) || dp 


i=1 j=1 


其 中 ,uw 为 无 标签 的 训练 样本 数 。 拉 普 拉 斯 二 次 型 在 7. 3. 2 节 已 经 介绍 。 
19.6 半 监 督 深度 学 习 


与 经 典 的 机 器 学 习 算法 相 比 ,深度 学 习 算 法 所 需 的 训练 样本 量 更 大 ,因此 ,样本 标注 成 
本 问题 更 严重 , 半 监 督学 习 的 各 种 方法 也 可 以 用 于 深度 学 习 算法 ,下 面 介绍 几 种 典型 的 

最 简单 的 方案 是 先 用 无 标签 样本 预 训练 ,然后 用 有 标签 样本 进行 模型 微调 。 如 果 第 一 
阶段 不 使 用 标签 值 , 则 只 适合 于 无 监督 的 深度 学 习 , 如 自动 编码 器 、 受 限 玻 尔 效 曼 机 ,这 称 为 
无 监督 预 训练 。 另 外 一 种 思路 是 伪 有 监督 预 训练 ,用 聚 类 等 算法 为 样本 生成 标签 值 ,然后 用 
这 些 伪 标签 样本 训练 神经 网 络 。 无 论 哪 种 方案 最 后 都 是 用 有 标签 的 样本 进行 微调 。 

也 可 以 采用 自 训练 的 策略 ,文献 L5] 采 用 了 这 种 思路 。 首 先 用 有 标签 样本 训练 神经 网 
络 ,然后 用 得 到 的 模型 对 无 标签 的 样本 进行 预测 ,得 到 伪 标 签 ,继续 用 这 些 样本 训练 模型 。 
BRA п 个 有 标签 样本 (xz sy) m = 1.2 ,n,n 个 无 标签 的 样本 x",m 二 1,2,…,n ,类 别 
数 为 C, 标 签 是 一 个 向 量 。 户 是 网 络 对 有 标签 样本 的 预测 输出 值 , 广 ”是 网 络 对 无 标签 样本 
的 预测 输出 值 。 损 失 函数 为 有 标签 样本 与 无 标签 样本 损失 之 和 : 

L= 15 SLOSO tat) +3 Sot 


m=1 i=1 n 


损失 函数 的 前 半 部 分 是 有 标签 样本 的 损失 ,后 半 部 分 为 无 标签 样本 的 损失 。 其 中 ， 
3 为 伪 标 签 ,是 神经 网 络 的 预测 结果 。 这 种 方法 的 一 个 主要 创新 是 引入 了 参数 a CO ,这 是 
无 标签 损失 的 权重 参数 ,迭代 过 程 中 动态 调整 。 初 始 时 ,神经 网 络 对 无 标签 样本 的 预测 不 准 
确 , 因 此 权重 值 很 小 ; 随 着 迭代 的 进行 ,预测 越 来 越 准 , 因 此 逐步 加 大 这 个 值 。 

文献 [6] 提 出 了 一 种 使 用 ladderNet 网 络 的 半 监 督学 习 算法 ,训练 时 同时 优化 有 标签 样 
本 和 无 标签 样本 的 损失 函数 。ladderNet 网 络 是 对 多 层 自 动 编码 器 的 改进 。 在 这 种 网 络 中 ， 
编码 器 的 中 间 层 有 一 个 分 支 连 接 到 解码 器 网 络 , 这 可 以 被 看 作 是 跨 层 连接 ,另外 在 编码 器 的 
每 层 都 加 入 了 随机 噪声 。 自 动 编码 器 的 训练 是 无 监督 的 ,而 半 监 督 ladderNet 网 络 训练 时 ， 
在 编码 器 的 最 高 屋 加 入 了 有 监督 的 损失 函数 ,与 无 监督 的 损失 函数 整合 ,完成 对 有 标签 样本 
和 无 标签 样本 的 训练 。 图 19. 2 为 一 个 两 层 的 ladderNet 网 络 示 意图 。 

图 19. 2 最 左边 是 为 编码 器 的 每 一 层 添加 的 随机 噪声 ,服从 正 态 分 布 N(0,0?)。_; 为 纺 
码 器 网 络 第 i 层 的 映射 函数 ,被 无 标签 样本 与 有 标签 样本 共享 。 解码 器 网 络 第 i 层 的 映射 
函数 为 g;。 每 层 有 一 个 代价 函数 C;, 用 于 最 小 化 重 构 误差 。 训 练 时 要 同时 保证 对 有 标签 样 
本 正确 分 类 ,并 最 小 化 无 标签 样本 的 重 构 误 差 , 前 者 是 损失 函数 的 有 监督 部 分 。 半 监督 生成 
模型 也 可 以 与 深度 神经 网 络 结合 "5 。 更 多 的 半 监 督 深度 学 习 算 法 可 以 阅读 文献 [7-14] 。 
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图 19.2 一 个 两 层 的 ladderNet 
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第 20 = 
强化 学 习 


强化 学 习 C 呆 是 一 类 特殊 的 机 器 学 习 算法 , 它 借鉴 于 行为 主义 心理 学 。 与 有 监督 学 习 
和 无 监督 学 习 的 目标 不 同 ,算法 要 解决 的 问题 是 智能 体 在 环境 中 怎样 执行 动作 以 获得 最 大 
的 累计 奖励 。 对 于 自动 行驶 的 汽车 ,强化 学 习 算 法 控制 汽车 的 动作 ,保证 安全 行驶 。 智 能 体 
指 强 化 学 习 算 法 ,环境 是 类 似 车 辆 当前 行驶 状态 (如 速度 ) 与 路 况 这 样 的 由 若干 参数 构成 的 
系统 ,奖励 是 人 们 期 望 得 到 的 结果 ,如 汽车 在 路 面 上 正确 地 行驶 而 不 发 生 事 故 。 

很 多 控制 决策 问题 都 可 以 抽象 成 这 种 模型 。 与 有 监督 学 习 不 同 ,这 里 没有 标签 值 作为 
监督 信号 ,系统 只 会 给 算法 执行 的 动作 一 个 评分 反馈 ,这 种 反馈 一 般 还 具有 延迟 性 ,当前 的 
动作 所 产生 的 后 果 在 未 来 才 会 完全 体现 ,另外 未 来 还 具有 随机 性 ,例如 ,下 一 个 时 刻 路 面 上 
有 哪些 行人 、 车 辆 在 运动 是 随机 的 而 不 是 确定 的 。 


20.1 强化 学 习 简 介 


20.1.1 问题 定义 


某 些 应 用 问题 需要 算法 在 每 个 时 刻 做 出 决策 并 执行 动作 。 对 于 围棋 ,每 一 步 需要 决定 
在 棋盘 的 哪个 位 置 放置 棋子 ,以 最 大 可 能 战胜 对 手 ;对 于 自动 驾驶 算法 ,需要 根据 路 况 来 确 
定 当 前 的 行驶 策略 以 保证 行驶 安全 ;对 于 机 械 手 ,要 驱动 手臂 运动 以 抓 取 到 设 定 的 目标 物 
体 。 这 类 问题 有 一 个 共同 的 特点 ,要 根据 当前 的 条 件 做 出 决策 和 动作 ,以 达到 某 一 预期 
目标 。 

智能 体 是 强化 学 习 中 的 动作 实体 ,对 于 自动 驾驶 的 汽车 ,环境 是 当前 的 路 况 。 在 每 个 时 
刻 智能 体 和 环境 有 自己 的 状态 ,如 汽车 当前 位 置 和 速度 ,路 面 上 的 车 辆 和 行人 情况 。 智 能 体 
根据 当前 状态 确定 一 个 动作 ,并 执行 该 动作 。 之 后 它 和 环境 进入 下 一 个 状态 ,同时 系统 给 它 
一 个 反馈 值 ,对 动作 进行 奖励 或 惩罚 ,以 迫使 智能 体 执行 期 望 的 动作 。 图 20.1 是 智能 体 和 
环境 交互 的 示意 图 。 

强化 学 习 是 解决 这 种 决策 问题 的 一 类 方法 。 与 其 他 机 器 学 习 算 法 不 同 ,算法 要 通过 样 
本 学 习 得 到 一 个 映射 函数 x, 其 输入 是 当前 时 刻 环境 信息 ,输出 是 要 执行 的 动作 : 

а = z(s) 

其 中 ,s 为 状态 ;a 为 要 执行 的 动作 ,状态 和 动作 分 别 来 自 状态 集合 和 动作 集合 。 动 作 和 状态 
可 以 是 离散 的 情况 ,如 左 转 、 右 转 , 也 可 以 是 连续 的 实数 ,如 左 转 50", 右 转 50"。 对 于 前 者 ， 
动作 和 状态 集合 是 有 限 集 , 对 于 后 者 ,是 无 限 集 。 执 行动 作 的 目标 是 要 达到 某 种 目的 ,如 无 
人 汽车 安全 的 行驶 ,赢得 本 次 围棋 比赛 ,在 强化 学 习 中 用 回报 函数 对 此 进行 建 模 。 
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环境 感知 
图 20.1 智能 体 和 环境 交互 


建立 强化 学 习 模 型 需要 解决 几 个 基本 问题 。 首 先是 如 何 定 义 状态 ,对 于 离散 有 限 的 状 
态 , 可 以 列举 出 所 有 状态 值 然 后 形成 状态 集合 ;对 于 连续 的 状态 ,可 以 定义 出 描述 状态 的 变 
量 。 对 于 自动 驾驶 的 汽车 ,如 果 只 考虑 本 车 ,可 以 定义 停止 ,行驶 .异常 3 种 状态 ;也 可 以 用 
汽车 的 位 置 坐标 、 速 度 来 描述 车 的 状态 ,这 是 连续 的 状态 。 另 外 还 需要 确定 所 有 动作 的 集 
合 。 对 于 游戏 ,可 以 是 按 上 ,下 、 左 、 右 4 个 键 ,因此 动作 集 有 4 种 动作 。 


20.1.2 马尔 可 夫 决 策 过程 


强化 学 习 要 解决 的 问题 可 以 抽象 成 马尔 可 夫 决 策 过 程 (Markov Decision Process， 
MDP)。 马 尔 可 夫 过 程 的 概念 在 第 16 章 已 经 介绍 ,其 特点 是 系统 下 一 个 时 刻 的 状态 由 当前 
时 刻 的 状态 决定 ,与 更 早 的 时 刻 无 关 。 与 马尔 可 夫 过 程 不 同 的 是 ,在 МОР 中 智能 体 可 以 执 
行动 作 , 从 而 改变 自己 和 环境 的 状态 ,并 且 得 到 惩罚 或 奖励 。 马 尔 可 夫 决 策 过 程 可 以 表示 成 

(S.A.P..R,,7) 
其 中 ,S 和 A 分 别 为 状态 和 动作 的 集合 。 假 设 上 时刻 状态 为 % ,智能 体 执行 动作 ,下 一 时 刻 
进入 状态 s+1。 这 种 状态 转移 与 马尔 可 夫 模 型 类 似 ,不 同 的 是 下 一 时 刻 的 状态 由 当前 状态 
以 及 当前 采取 的 动作 决定 ,是 一 个 随机 性 变量 ,这 一 状态 转移 的 概率 为 
balsos) = PO 一 | s, = Ssa; = a) 

这 是 当前 状态 为 ; 时 执行 动作 a ,下 一 时 刻 进入 状态 ;的 条 件 概 率 。 这 个 公式 表明 下 一 
时 刻 的 状态 与 更 早 时 刻 的 状态 和 动作 无 关 , 状 态 转 换 具 有 马尔 可 夫 性 。 有 一 种 特殊 的 状态 
称 为 终止 状态 (也 称 为 吸收 状态 ) ,到 达 该 状态 之 后 不 会 再 进入 其 他 后 续 状 态 。 对 于 围棋 , 终 
止 状态 是 一 局 的 结束 。 

执行 动作 之 后 ,智能 体会 收 到 一 个 立即 回报 : 

R,(s,s’) 

立即 回报 和 当前 状态 、 当 前 采取 的 动作 以 及 下 一 时 刻 进入 的 状态 有 关 。 在 每 个 时 刻 +， 
智能 体 选择 一 个 动作 a, 执行 ,之 后 进入 下 一 状态 sa a ,环境 给 出 回报 值 。 智 能 体 从 某 一 初始 
状态 开始 ,每 个 时 刻 选择 一 个 动作 执行 ,然后 进入 下 一 个 状态 ,得 到 一 个 回报 ,如 此 反复 : 











ao a a2 
So —— 8) — sg — s 


下 面 来 看 一 个 具体 的 例子 。 在 地 图 上 有 9 个 地 点 ,编号 从 A 到 了 ,终点 是 1, 现 在 我 们 要 
以 任意 一 个 位 置 为 起 点 , 走 到 终点 。 这 些 地 点 之 间 有 路 连接 ,如 图 20.2 所 示 。 
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а 20.2 寻找 路 径 任务 





对 于 上 面 的 问题 ,状态 有 9 种 ,就 是 当前 所 处 的 位 置 ,其 中 了 为 终止 状态 。 在 每 个 状态 
可 以 执行 的 动作 有 4 种 : 向 上 走 、 向 下 走 、 向 左 走 、 向 右 走 。 将 这 4 种 动作 简写 为 u、d、i、r。 
由 此 得 到 状态 的 集合 为 

S = (A, B, C.E,E,F,G.H,I) 
动作 的 集合 为 
А = {u,d,l,r} 

无 论 在 什么 位 置 ,执行 一 个 动作 之 后 下 一 步 到 达 的 位 置 是 确定 的 ,因此 ,状态 转移 概率 
为 1。 除非 到 达 了 终点 了 ,否则 每 一 次 执行 动作 之 后 的 回报 值 为 0, 到 达 终 点 后 的 回报 值 为 
100。 如 果 用 马尔 可 夫 决 策 过 程 表 示 上 面 的 问题 ,如 图 20. 3 所 示 。 





20.3 寻找 路 径 任务 的 马尔 可 夫 决 策 过 程 
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这 里 终止 状态 工 用 加 粗 的 圆 表示 。 图 中 每 条 边 表示 执行 动作 后 的 状态 转移 ,包含 的 信 
息 有 动作 、 转 移 概 率 , 以 及 得 到 的 立即 回报 。 例 如 ,从 瑟 到 工 的 边 表示 执行 动作 x 即 向 上 
走 ,到 达 状 态 1, 转 移 的 概率 是 1, 得 到 的 回报 是 100。 除 了 进入 终止 状态 工 的 两 条 边 各 有 100 
的 回报 之 外 ,其 他 动作 的 回报 都 为 0。 因为 状态 转移 是 确定 性 的 ,因此 转移 概率 全 部 为 1 。 

问题 的 核心 是 执行 动作 的 策略 , 它 可 以 抽象 成 一 个 函数 <, 定 义 了 在 每 种 状态 时 要 选择 
执行 的 动作 。 这 个 函数 定义 了 在 状态 s 所 选择 的 动作 为 

а = x(s) 
这 是 确定 性 策略 。 对 于 确定 性 策略 ,在 每 种 状态 下 智能 体 要 执行 的 动作 是 唯一 的 。 另 外 还 
有 随机 性 策略 ,智能 体 在 一 种 状态 下 可 以 执行 的 动作 有 多 种 ,策略 函数 给 出 的 是 执行 每 种 动 
作 的 概率 : 
xla | s) = p(a | s) 

即 按 概率 从 各 种 动作 中 随机 选择 一 种 执行 。 策 略 只 与 当前 所 处 的 状态 有 关 , 与 历史 时 间 无 
关 , 在 不 同时 刻 对 于 同一 个 状态 所 执行 的 策略 是 相同 的 。 下 面 以 一 个 例子 来 说 明 策略 函数 。 
根据 交通 规则 ,在 一 个 红绿灯 路 口 ,驾驶 汽车 时 执行 的 确定 性 策略 如 表 20. 1 所 示 。 


表 20.1 确定 性 策略 











状态 动作 
绿灯 通过 
红 灯 停止 
黄 灯 通过 





强化 学 习 的 目标 是 要 达到 某 种 预期 ,当前 执行 动作 的 结果 会 影响 系统 后 续 的 状态 ,因此 
需要 确定 动作 在 未 来 是 否 能 够 得 到 好 的 回报 ,这 种 回报 具有 延迟 性 。 对 于 围棋 ,当前 走 的 一 
步 棋 一 般 不 会 马上 结束 ,但 会 影响 后 续 的 棋局 ,需要 使 得 未 来 赢 的 概率 最 大 化 ,而 未 来 又 具 
有 随机 性 ,这 为 确定 一 个 正确 的 决策 带 来 了 困难 。 

选择 策略 的 目标 是 按照 这 个 策略 执行 后 ,在 各 个 时 刻 的 累计 回报 值 最 大 化 , 即 未 来 的 预 
期 回报 最 大 。 按 照 某 一 策略 执行 的 累计 回报 定义 为 


> YR, G 524) 
这 里 使 用 了 带 衰 减 系数 的 回报 和 。 按 照 策略 x, 智 能 体 在 每 个 时 刻 上 执行 的 动作 为 


а, = п(5,) 
其 中 ,y 称 为 折扣 因子 ,是 [0,1] 区 间 的 一 个 数 。 在 每 个 时 刻 O 执行 完 动 作 a, 得 到 的 回报 为 
YR. Седен) 
使 用 折扣 因子 是 因为 未 来 具有 更 大 的 不 确定 性 ,所 以 回报 值 要 随 着 时 间 训 减 。 另 外 ,如 
果 不 加 上 这 种 按照 时 间 的 指数 级 衰减 会 导致 整个 求 和 项 趋向 于 无 穷 大 。 这 里 假设 状态 转移 
概率 以 及 每 个 时 刻 的 回报 是 已 知 的 ,算法 要 寻找 最 佳 策略 来 最 大 化 上 面 的 累计 回报 。 
如 果 每 次 执行 一 个 动作 进入 的 下 一 个 状态 是 确定 的 , 则 可 以 直接 用 上 面 的 累计 回报 计 
算 公 式 。 如 果 执 行 完 动作 后 进入 的 下 一 个 状态 是 随机 的 , 则 需要 计算 各 种 情况 的 数学 期 望 。 
类 似 于 有 监督 学 习 中 需要 定义 损失 函数 来 评价 预测 函数 的 优 劣 ,在 强化 学 习 中 也 需要 对 策 
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略 函 数 的 优 劣 进行 评价 。 为 此 定义 状态 价值 函数 的 概念 , 它 是 在 某 个 状态 * 下 ,按照 策略 x 
执行 动作 ,累计 回报 的 数学 期 望 ,衡量 的 是 按照 某 一 策略 执行 之 后 的 累计 回报 。 状 态 价值 函 
数 的 计算 公式 为 

V,G)= У) puo Ges Rro (s,s') + УУ„(5')) 





= У) pro Gs Rey Gs + >) Ур» (s.s) V, (5) 


= R(s) Y) buo (s,s)V, (s) 


这 是 一 个 递归 的 定义 ,函数 的 自 变量 是 状态 与 策略 函数 ,将 它们 映射 成 一 个 实数 ,每 个 
状态 的 价值 函数 依赖 于 从 该 状态 执行 动作 后 能 到 达 的 后 续 状态 的 价值 函数 。 在 状态 s 时 执 
行动 作 x(s) ,下 一 时 刻 的 状态 ;是 不 确定 的 ,进入 每 个 状态 的 概率 为 ps (s,s ) ,当前 获得 
的 回报 是 Rro (s,s ) ,因此 ,需要 对 下 一 时 刻 的 所 有 状态 计算 数学 期 望 , 即 概率 意义 上 的 均 
值 , 而 总 的 回报 包括 当前 的 回报 和 后 续 时 刻 的 回报 值 之 和 , 即 VGO. EXE АСУ) Ж Ч 
前 时 刻 获得 的 回报 。 如 果 是 非 确 定性 策略 ,还 要 考虑 所 有 的 动作 ,这 种 情况 的 状态 价值 函数 
计算 公式 为 

V.G) = У) яа | 22] balses) CR, Gs) + WV, GO) 


对 于 终止 状态 ,无 论 使 用 什么 策略 函数 ,其 状态 价值 函数 为 0。 类 似 地 可 以 定义 动作 价 
值 函 数 。 它 是 智能 体 按照 策略 x 执行 ,在 状态 ;时 执行 具体 的 动作 a 后 的 预期 回报 ,计算 公 
式 为 
Q.Gs,a) = У) p.Gs,s')(R,(s,s') + УУ„(5')) 


动作 价值 函数 除了 指定 初始 状态 s 与 策略 x 之 外 ,还 指定 了 在 当前 的 状态 s 时 执行 的 
动作 a 。 这 个 函数 衡量 的 是 按照 某 一 策略 ,在 某 一 状态 时 执行 各 种 动作 的 价值 。 这 个 值 等 
于 在 当前 状态 ;下 执行 一 个 动作 后 的 立即 回报 R。Cs,s ) ,以 及 在 下 一 个 状态 时 按照 策略 x 
执行 所 得 到 的 状态 价值 函数 V.(s ) 之 和 ,此 时 也 要 对 状态 转移 概率 pa (s,s ) 求 数学 期 望 。 
状态 价值 函数 和 动作 值 函数 的 计算 公式 称 为 贝尔 曼 方程 ,它们 是 马尔 可 夫 决 策 过 程 的 核心 。 

因为 算法 要 寻找 最 优 策 略 , 因 此 需要 定义 最 优 策 略 的 概念 。 因 为 状态 价值 函数 定义 了 
策略 的 优 劣 ,因此 ,可 以 根据 此 函数 值 对 策略 的 优 劣 进行 排序 。 对 于 两 个 不 同 的 策略 x 和 
x ,如 果 对 于 任意 状态 s 都 有 





V,(s) > Vu (s) 
则 称 策略 x 优 于 策略 x 。 对 于 任意 有 限 状态 和 动作 的 马尔 可 夫 决 策 过 程 ,都 至 少 存在 一 个 
最 优 策略 , 它 优 于 其 他 任何 不 同 的 策略 。 根 据 最 优 策略 的 定义 与 性 质 , 马 尔 可 夫 决策 过 程 的 
优化 目标 为 
V* (s) = max,V,(s) 

即 寻 找 任意 状态 s 的 最 优 策略 函数 xx。 这 个 最 优化 问题 的 求解 目前 有 З 种 主流 的 方法 ,分别 
是 动态 规划 、 蒙 特 卡 洛 算法 和 时 序 差 分 算法 。 

一 个 重要 结论 是 ,所 有 的 最 优 策 略 有 相同 的 状态 价值 函数 和 动作 价值 函数 值 。 最 优 动 
作价 值 函数 定义 为 

Q' (s.a) = тах„©,„(з,а) 
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对 于 状态 -动作 对 (s,a) ,最 优 动作 价值 函数 给 出 了 在 状态 s 时 执行 动作 4a, 后续 状 态 时 
按照 最 优 策略 执行 时 的 预期 回报 。 找 到 了 最 优 动 作价 值 函 数 .根据 它 可 以 得 到 最 优 策略 , 具 
体 做 法 是 在 每 个 状态 时 执行 动作 价值 函数 值 最 大 的 那个 动作 : 

п” (s) = argmax,Q' (s.a) 
因此 ,可 以 通过 寻找 最 优 动作 价值 函数 得 到 最 优 策略 函数 。 如 果 只 使 用 状态 价值 函数 ， 
虽然 能 找到 其 极 值 , 但 不 并 知道 此 时 所 采用 的 策略 函数 。 


20.2 基于 动态 规划 的 算法 


强化 学 习 的 目标 是 求解 最 优 策略 ,最 直接 的 求解 手段 是 动态 规划 算法 。 动 态 规划 通过 
求解 子 问题 的 最 优 解 得 到 整个 问题 的 最 优 解 ,其 基本 原理 是 如 果 要 保证 一 个 解 全 局 最 优 , 则 
每 个 子 问题 的 解 也 要 是 最 优 的 。 
20.1.2 节 定 义 了 状态 价值 函数 和 动作 价值 函数 ,并 根据 它们 的 定义 建立 了 递 推 的 计算 
公式 。 强 化 学 习 的 优化 目标 是 寻找 一 个 策略 使 得 状态 价值 函数 极 大 化 : 
z' (s) = arg max,V,(s) 
假设 最 优 策略 z" 的 状态 价值 函数 和 动作 价值 函数 分 别 为 V*(s) 和 Q*(s,a) ,根据 定义 
最 优 状 态 价值 函数 和 最 优 动 作价 值 函 数 之 间 存 在 如 下 关系 : 
V° (s) = max,Q ° (s,a) 
即 要 保证 状态 价值 函数 是 最 优 的 , 则 当前 的 动作 也 要 是 最 优 的 。 状 态 价值 函数 和 动作 价值 
函数 都 满足 贝尔 曼 最 优 性 方程 。 对 于 状态 价值 函数 ,有 
У" G) = max, X) pa (sss) (Ra (ses) $V" GOD 
上 式 的 意义 是 对 任何 一 个 状态 ;, 要 保证 一 个 策略 x 能 让 状态 价值 函数 取得 最 大 值 , 则 
需要 本 次 执行 的 动作 a 所 带 来 的 回报 与 下 一 状态 ;的 最 优 状 态 价 值 函数 值 之 和 是 最 优 的 。 
对 于 动作 价值 函数 ,类 似 地 有 
Q* (s,a) = Dy bases (Ress) + у max,Q* (s’.a’)) 
算法 要 寻找 状态 价值 函数 最 大 的 策略 ,因此 ,需要 确定 一 个 策略 的 状态 价值 函数 ,得 到 
一 个 策略 的 状态 价值 函数 之 后 ,可 以 调整 策略 ,让 价值 函数 不 断 变 大 。 动 态 规 划算 法 在 求解 
时 采用 了 分 步骤 迭代 的 思路 解决 这 两 个 问题 ,分 别称 为 策略 评估 和 策略 改进 。 


20.2.1 策略 迭代 算法 

给 定 一 个 策略 ,可 以 用 动态 规划 算法 计算 它 的 状态 价值 函数 ,这 称 为 策略 评估 (Policy 
Evaluation) 。 在 每 种 状态 下 执行 的 动作 有 多 种 可 能 ,需要 对 各 个 动作 计算 数学 期 望 。 按 照 
定义 ,状态 价值 函数 的 计算 公式 为 

V,(s) = > z(a | s) > pro Gs ) Guo Gs, s) + yw, (s’)) 

状态 s 的 价值 函数 依赖 于 后 续 状态 ,因此 .计算 时 需要 利用 后 续 状 态 s 的 价值 函数 依次 
更 新 状态 s 的 价值 函数 。 如 果 将 这 个 式 子 展开 ,得 到 的 是 一 个 关于 所 有 状态 的 价值 函数 的 
方程 组 ,因此 ,计算 所 有 状态 的 价值 函数 本 质 上 是 求解 方程 组 。 














А 
"Ë 
Жов нз} 1533 


求解 时 使 用 迭代 法 ,首先 为 所 有 状态 的 价值 函数 设置 初始 值 , 然 后 用 公式 更 新 所 有 状态 
的 价值 函数 ,第 k 次 迭代 时 的 更 新 公式 为 
ViaG) = D rla | 8) Pp. Gs Gu T Va GO) 


算法 最 后 会 收敛 到 真实 的 价值 函数 值 。 更 新 有 两 种 方法 : 第 一 种 是 更 新 某 一 状态 的 价 
值 函 数 时 用 其 他 所 有 状态 的 价值 函数 在 上 一 次 迭代 时 的 值 ; 第 二 种 方法 是 更 新 某 一 状态 的 
价值 函数 时 用 其 他 状态 最 新 的 迭代 值 , 而 不 用 等 所 有 状态 一 起 更 新 。 从 上 面 的 计算 公式 可 
以 看 到 ,策略 估计 需要 知道 状态 转移 概率 。 

策略 评估 的 目的 是 为 了 找到 更 好 的 策略 , 即 策略 改进 。 策 略 改进 通过 按照 某 种 规则 对 
当前 策略 进行 调整 ,得 到 更 好 的 策略 。 如 果 在 某 一 状态 下 执行 一 个 动作 a 所 得 到 的 预期 回 
报 比 之 前 计算 出 来 的 价值 函数 还 要 大 , 即 

Q.(s,a) > Vo (sy 
则 至 少 存在 一 个 策略 比 当前 策略 更 好 ,因为 即使 只 将 当前 状态 下 的 动作 改 为 a, 其 他 状态 下 
的 动作 按照 策略 x 执行 ,得 到 的 预期 回报 也 比 按照 x 执行 要 好 。 假 设 x 和 x 是 两 个 不 同 的 
策略 ,如 果 对 于 所 有 状态 s 都 有 
О.(з»х (з)) = V,(s) 
则 称 策略 x хл 更 好 。 可 以 遍历 所 有 状态 和 所 有 动作 ,用 贪心 策略 获得 新 策略 。 具 体 做 法 
是 对 于 所 有 状态 都 按照 下 面 的 公式 计算 新 的 策略 : 
п(5) = arg max,Q, (s.a) 
= arg max, >} Pulses’) (Ra (5.5) -ЕАУ„(5')) 


每 次 选择 的 都 是 能 获得 最 好 回报 的 动作 ,用 它们 来 更 新 每 个 状态 下 的 策略 函数 ,从 而 完 
成 对 策略 函数 的 更 新 。 

策略 迭代 是 策略 评估 和 策略 改进 的 结合 。 从 一 个 初始 策略 开始 ,不 断 地 改进 这 个 策略 
达到 最 优 解 。 每 次 迭代 时 首先 用 策略 估计 一 个 策略 的 状态 价值 函数 ,然后 根据 策略 改进 方 
案 调 整 该 策略 ,再 计算 新 策略 的 状态 价值 函数 ,如 此 反复 直到 收敛 。 策略 迭 代 的 原理 如 
图 20.4 所 示 。 


策略 评估 


策略 改进 
图 20.4 策略 迭代 的 原理 


完整 的 策略 迭代 算法 流程 如 下 。 
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对 所 有 的 状态 ,将 策略 函数 r(sS) 和 状态 价值 函数 V(s) 初 始 化 为 任意 值 
第 一 阶段 : 策略 估计 
循环 
初始 化 相 邻 两 次 选 代 的 价值 函数 的 差 值 : A 一 0 
循环 ,对 于 每 个 状态 | € S 
获取 上 次 选 代 的 状态 价值 函数 : v— VG) 
更 新 状态 价值 函数 : 
VG) = 27 pas s,s (R+ V GO) 


更 新 差 值 : 
Д = max (A,|v—V(s)|) 
直到 A<0 
第 二 阶段 : 策略 改进 
初始 化 策略 是 否 没有 改进 的 标志 变量 : flag—true 
循环 ,对 于 每 个 状态 SES 
获取 之 前 的 策略 所 确定 的 动作 : а=л(») 
计算 当前 状态 的 最 优 动作 ， 
z(s) 一 argmax, 2; palses MR + YVG) 


如 果 天 r(y) 
Я] flag<-false 
如 果 flag= true 则 停止 迭代 ,返回 和 V; 和 否则 继续 执行 策略 估计 


其 中 ,9 是 人 工 设 置 的 阔 值 ,用 于 判断 状态 价值 函数 的 估计 值 是 否 已 经 收敛 ,这 通过 相 邻 两 
次 迭代 时 的 价值 函数 之 差 与 阀 值 9 进行 比较 来 实现 。 算 法 首先 计算 给 定 策略 的 状态 价值 函 
数 ,收敛 之 后 ,执行 策略 改进 ,如 果 无 法 继续 改进 , 则 认为 已 经 收敛 到 最 优 策略 。 


20.2.2 ”价值 迭代 算法 


在 策略 迭代 算法 中 ,策略 评估 的 计算 量 很 大 ,需要 多 次 处 理 所 有 状态 并 不 断 地 更 新 状态 
价值 函数 。 实 际 上 不 需要 知道 状态 价值 函数 的 精确 值 也 能 找到 最 优 策略 ,价值 迭代 就 是 其 
中 的 一 种 方法 。 

根据 贝尔 曼 最 优化 原理 ,如 果 一 个 策略 是 最 优 策略 .整体 最 优 的 解 其 局 部 一 定 也 最 优 ， 
因此 ,最 优 策略 可 以 被 分 解 成 两 部 分 : 从 状态 * 到 “采用 了 最 优 动作 ,在 状态 时 采用 的 策 
略 也 是 最 优 的 。 根 据 这 一 原理 ,每 次 选择 当前 回报 和 未 来 回报 之 和 最 大 的 动作 ,价值 迭代 的 
更 新 公式 为 

Vin(s) = max, 3p. GG Gs) + yV,(s)) 


ИЙИКПЕ S A A PC B fE = ,不 是 对 某 一 策略 的 状态 价值 函数 进行 计算 ， 
而 是 直接 收敛 到 最 优 的 价值 函数 。 
价值 迁 代 算法 的 流程 如 下 。 


初始 化 所 有 状态 的 价值 函数 值 为 任意 值 
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循环 
初始 化 相 邻 两 次 选 代 时 价值 函数 的 最 大 差 值 : A 一 0 
循环 ,对 于 状态 集中 的 每 个 状态 s 
获取 和 迭代 之 前 的 状态 价值 函数 : u= V (s) 
更 新 价值 函数 : 
V(s) = max, Ур, lss CR + VG») 


更 新 差 值 : 
А = max(A,|v—V(s)|) 
直到 A<0 
迭代 结束 后 ,输出 一 个 确定 性 的 策略 x, 每 个 状态 下 选择 价值 最 大 的 动作 : 
a(s) = arg max, >) pases) (R+YVG')) 


其 中 ,0 为 人 工 设置 的 阔 值 ,用 于 闪 代 终止 的 判定 。 价值 迭代 利用 贝尔 曼 最 优 性 方程 来 更 新 
状态 价值 函数 ,每 次 选择 在 当前 状态 下 达到 最 优 值 的 动作 。 策 略 迭 代 算 法 和 价值 迭代 算法 
都 依赖 于 环境 的 模型 ,需要 知道 状态 转移 的 概率 ,因此 ,被 称 为 有 模型 的 强化 学 习 算 法 。 


20.3 蒙特 卡 洛 算法 


策略 迭代 算法 和 价值 迭代 算法 虽然 都 可 以 得 到 理论 上 的 最 优 解 ,但 是 它们 的 计算 过 程 
依赖 于 事先 知道 状态 转移 概率 和 立即 回报 值 。 对 于 很 多 应 用 场景 ,无 法 得 到 准确 的 状态 模 
型 和 回报 函数 。 因 此 ,前 面 介绍 的 这 两 种 算法 在 实际 问题 中 使 用 价值 有 限 。 

对 于 无 法 建立 精确 的 环境 模型 的 问题 ,只 能 根据 一 些 状态 、 动 作 、 回 报 值 序列 样本 进行 
计算 ,估计 出 价值 函数 和 最 优 策略 。 基 本 思想 是 按照 某 种 策略 随机 执行 不 同 的 动作 ,观察 得 
到 的 回报 ,然后 进行 改进 , 即 通过 随机 试探 来 学 习 。 这 类 算法 称 为 无 模型 的 算法 。 

蒙特 卡 洛 算法 和 时 序 差 分 算法 是 这 种 随机 方法 的 典型 代表 ,在 本 节 中 讲述 蒙特 卡 洛 算 
法 ,时序 差 分 算法 在 20. 4 节 中 介绍 。 蒙 特 卡 洛 算法 是 一 种 随机 数值 算法 , 它 通过 使 用 随机 
数 来 近似 求解 某 些 难 以 直接 求解 的 问题 。 在 强化 学 习 中 ,蒙特 卡 洛 算法 可 以 根据 样本 得 到 
状态 价值 函数 和 动作 价值 函数 的 估计 值 ,用 于 近似 它们 计算 公式 中 的 数学 期 望 值 。 


20.3.1 算法 简介 


蒙特 卡 洛 算法 通过 随机 样本 来 计算 目标 函数 的 值 。 下 面 用 一 个 例子 进行 说 明 , 如 何 用 
这 种 算法 来 计算 单位 圆 的 面积 。 以 原点 为 圆心 的 单位 圆 的 方程 为 


22 十 内 一 1 





圆 内 部 的 点 满足 下 面 的 不 等 式 : 





х* + у* <1 
用 蒙特 卡 洛 算法 求解 时 ,使 用 大 量 的 随机 点 (z,y). 其 中 ,zx 和 yy 都 服从 区 间 [ 一 1,1] 内 
的 均匀 分 布 。 算 法 维护 了 两 个 计数 器 ,第 一 个 是 落 在 圆 内 的 点 的 数量 ,第 二 个 是 随机 点 的 总 
数 。 实 现时 ,生成 大 量 的 样本 点 (如 10000 个 ), 对 于 每 个 点 ,判断 它 是 否 在 圆 的 内 部 ,如 果 
是 , 则 将 第 一 个 计数 器 加 1。 通 过 生成 大 量 这 样 的 点 ,最 后 得 到 圆 内 部 点 数 的 计数 器 值 , 除 
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以 随机 点 的 总 数 ,得 到 一 个 比值 ,这 个 比值 就 是 圆 的 面积 与 矩形 面积 的 比 : 


落 在 圆 内 的 点 数 
总 点 数 


这 个 圆 的 外 接 和 矩形 的 面积 是 4, 用 比值 乘 以 矩形 的 面积 ,就 得 到 了 圆 的 面积 。 这 一 过 程 
的 原理 如 图 20.5 所 示 。 




















图 20.5 用 蒙特 卡 洛 算法 计算 圆 的 面积 


在 图 20. 5 中 随机 生成 了 均匀 分 布 在 矩形 区 域内 的 样本 点 , 落 在 圆 内 的 点 标记 为 蓝 色 ， 
落 在 圆 之 外 的 点 标记 为 黄色 。 计 算 蓝 色 的 点 数量 与 总 点 数 的 比值 ,就 可 以 得 到 圆 的 面积 与 
矩形 面积 的 比值 ,然后 乘 上 矩形 的 面积 ,最 后 得 到 圆 的 面积 。 


20.3.2 ”状态 价值 函数 估计 


在 上 面 的 例子 中 ,样本 是 一 些 随机 的 点 ,在 用 于 计算 强化 学 习 的 价值 函数 时 ,样本 是 一 
些 片段 。 在 这 里 先 定义 片段 (Episode) 的 概念 , 它 是 从 某 一 状态 开始 ,执行 一 些 动 作 , 直 到 终 
止 状态 为 止 的 一 个 完整 的 状态 和 动作 序列 ,这 类 似 于 循环 神经 网 络 中 的 时 间 序 列 样本 。 蒙 
特 卡 洛 算法 从 这 些 片段 样本 中 学 习 , 估 算出 状态 价值 函数 和 动作 价值 函数 。 实 现时 的 做 法 
非常 简单 : 按照 一 个 策略 执行 ,得 到 一 个 状态 和 回报 序列 , 即 片段 。 多 次 执行 ,得 到 多 个 片 
段 。 接 下 来 根据 这 些 片 段 样本 估计 出 价值 函数 。 

在 蒙特 卡 洛 算法 中 ,状态 价值 函数 的 估计 值 是 所 有 片段 中 以 该 状态 计算 得 到 的 回报 的 
平均 值 。 具 体 实现 时 .根据 给 定 的 策略 生成 一 些 片 段 样本 : 

EET R: $582 *02 *** S; а, Rea s. 

如 果 要 计算 状态 s 的 价值 函数 , 则 在 这 个 片段 中 找到 s 出 现 的 位 置 ,假设 为 s。 然 后 按 
照 状态 价值 函数 的 定义 计算 它 的 价值 函数 值 : 

Vi(s) = К,ы БАК, +" 

可 能 会 出 现 这 种 情况 : 从 状态 s 离开 之 后 ,经 过 一 段 时 间 又 回 到 这 个 状态 。 对 于 这 个 
问题 有 两 种 处 理 策略 , 即 First-Visit 和 Every-Visit。 前 者 只 使 用 第 一 次 到 达 状 态 s 时 所 计 
算 的 价值 函数 值 , 后 者 对 每 次 进入 状态 s 时 的 价值 函数 值 累加 取 平 均 。 

蒙特 卡 洛 策略 评估 算法 的 流程 如 下 。 


初始 化 所 有 状态 的 价值 函数 ,将 所 有 状态 s 的 回报 值 列表 Returns(s) 初 始 化 为 室 
循环 
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按照 策略 zt 生成 一 个 片段 
循环 ,对 于 片段 中 出 现 的 每 个 状态 
寻找 状态 在 片段 中 的 第 一 次 出 现 的 位 置 , 计 算 它 的 回报 值 С 
将 G 加 入 到 列表 Returns(s) 中 
结束 循环 
返回 列表 的 均值 作为 状态 价值 函数 的 估计 值 avg(Returns(s)); 
结束 循环 


每 次 得 到 价值 函数 的 估计 值 之 后 ,使 用 类 似 梯 度 下 降 法 的 公式 进行 更 新 ,以 保证 平滑 
性 。 更 新 公式 为 
VG) = VG) +a(G—V(s)) 
这 里 的 更 新 项 使 用 了 蒙特 卡 洛 估计 值 与 当前 函数 值 的 差分 ,类 似 于 梯度 下 降 法 ,以 保证 
函数 值 收敛 ,参数 是 人 工 设置 的 学 习 率 。 


20.3.3 动作 价值 函数 估计 


估计 动作 价值 函数 的 做 法 和 估计 状态 价值 函数 类 似 。 给 定 一 个 策略 ,在 状态 s 下 执行 
动作 a, 后 面 的 动作 遵循 策略 x, 生成 片段 。 然 后 根据 片段 计算 出 动作 值 函数 ,最 后 用 从 这 些 
片段 得 到 的 函数 值 的 平均 值 作为 最 终 的 估计 值 。 

用 蒙特 卡 洛 算法 估计 价值 函数 时 存在 一 个 问题 ,在 某 一 状态 下 有 多 个 动作 可 以 执行 ,如 
果 只 执行 估 值 最 大 的 那个 动作 , 则 其 他 动作 没有 机 会 得 到 执行 ,这 样 就 无 法 估计 这 些 动 作 的 
值 。 因 此 ,要 让 所 有 动作 都 有 机 会 执行 。 一 种 做 法 称 为 = 贪心 策略 ,以 1 一 e 的 概率 执行 最 
优 动作 ,以 s 的 概率 执行 其 他 动作 ,这 样 可 以 获得 所 有 动作 的 估计 值 。 


20.3.4 蒙特 卡 洛 控制 


蒙特 卡 洛 控制 是 动作 价值 函数 估计 与 策略 改进 的 结合 。 算 法 的 流程 如 下 。 


初始 化 策略 函数 x(S) 为 随机 值 , 初 始 化 所 有 状态 的 动作 价值 函数 Q(s,a) 为 随机 值 
初始 化 Retruns(s.a)W RAE 
循环 
随机 选择 初始 状态 so ,初始 动作 ao 
按照 策略 zt 生成 一 个 片段 
循环 ,对 片段 中 出 现 的 每 个 状态 -动作 对 sa 
计算 sa 第 一 出 现时 的 价值 函数 值 G 
将 G 加 入 到 列表 Retruns(s.a) Ф 
计算 列表 的 均值 ,赋予 动作 价值 函数 : 
Q(s.a) = avg(Returns(s,a)) 
结束 循环 
循环 ,对 片段 中 的 每 个 状态 
z(s) = arg max,Q (s.a) 
结束 循环 
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结束 循环 


与 价值 迭代 算法 类 似 ,在 这 里 首先 计算 所 有 状态 -动作 对 的 价值 函数 ,然后 更 新 策略 ,将 
每 种 状态 下 的 动作 置 为 使 得 动作 价值 函数 最 大 的 动作 ,反复 迭代 直至 收敛 。 


20.4 时 序 差分 学 习 


蒙特 卡 洛 算法 需要 使 用 完整 的 片段 进行 计算 ,这 在 有 些 问 题 中 是 不 现实 的 ,尤其 是 对 于 
没有 终止 状态 的 问题 。 时 序 差 分 算法 (Temporal Difference learning, TD 学习) 中 对 此 进行 
了 改进 ,执行 一 个 动作 之 后 就 进行 价值 函数 估计 ,无 须 使 用 包括 终止 状态 的 完整 片段 。 与 蒙 
特 卡 洛 算法 一 样 ,TD 算法 无 须 依赖 状 态 转移 概率 ,直接 通过 生成 的 随机 样本 来 计算 。 最 基 
本 的 TD 算法 用 贝尔 曼 方 程 估 计价 值 函 数 的 值 ,然后 构造 更 新 项 。 和 迭代 更 新 公式 为 

VG) = VG) +a(R+ yV(s') — V(s)) 

算法 用 当前 动作 的 立即 回报 值 与 下 一 状态 当前 的 状态 价值 函数 估计 值 之 和 构造 更 新 

项 ,更 新 本 状态 的 价值 函数 。 更 新 项 为 
R4-yVG^) 

在 上 式 中 没有 使 用 状态 转移 概率 ,而 是 和 蒙特 卡 洛 算法 一 样 随机 产生 一 些 样本 来 进行 
计算 ,因此 也 是 无 模型 的 算法 。 用 于 估计 状态 价值 函数 时 ,算法 的 输入 为 策略 ,输出 为 该 策 
We EAR AS (EL РА C 

用 于 估计 状态 价值 函数 值 的 TD 学 习 算法 的 流程 如 下 。 


初始 化 所 有 状态 的 价值 函数 V(s) ,可 以 全 部 初始 化 为 0 
循环 ,对 于 所 有 的 片段 
选择 一 个 初始 状态 5 
循环 ,对 于 片段 中 的 每 一 步 
按照 策略 x 为 状态 s 确定 一 个 动作 a 来 执行 
执行 动作 a, 得 到 立即 回报 尺 以 及 下 一 个 状态 s 
更 新 价值 函数 : 
VG) = VG) +a(R+ yV(s') — V(s)) 
进入 新 状态 : s=s’ 
直到 ;为 终止 状态 
结束 循环 
在 实现 时 需要 将 状态 价值 函数 存在 一 维 数组 中 .然后 根据 公式 迭代 更 新 数组 中 的 每 个 
元 素 , 直 到 收敛 。 
20.4.1 Sarsa 算法 
前 面 介绍 的 算法 用 于 估计 状态 价值 函数 的 值 ,而 Sarsa 算法 用 于 估计 给 定 策略 的 动作 
价值 函数 ,同样 是 每 次 执行 一 个 动作 之 后 就 进行 更 新 。 它 的 迭代 更 新 公式 为 
О‹з.а) = Q(s.a) +a(R + yQ(s',a') — Q(s.a)) 
由 于 更 新 值 的 构造 使 用 了 (sa Res за }3Х 5 个 变量 ,因此 被 命名 为 Sarsa 算法 。 根 据 
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所 有 状态 -动作 对 的 价值 函数 可 以 得 到 最 优 策 略 。 
算法 的 流程 如 下 。 
初始 化 ,将 所 有 非 终止 状态 的 Q(s,a) 初 始 化 为 任意 值 ,终止 状态 的 初始 化 为 0 
循环 ,对 所 有 片段 
选择 一 个 初始 状态 s 
根据 Q 函数 为 状态 y 确定 一 个 动作 wd ,可 以 采用 贪心 策略 
循环 ,对 于 片段 中 的 每 一 步 
执行 动作 wu, 得 到 立即 回报 尺 以 及 下 一 个 状态 
根据 Q 函数 为 状态 Y 确定 一 个 动作 a ,可 以 采用 e 贪 心 策略 
更 新 QA. 
QG.a) = QG.a) +a(R + YQG a") — Q(s,a)) 
更 新 状态 和 动作 : s= s.a =a 
直到 ;为 终止 状态 
结束 循环 


对 于 有 限 的 状态 和 动作 集合 ,可 以 将 动作 价值 函数 存储 在 二 维 数组 中 , 行 代表 状态 , 列 
代表 动作 ,每 个 元 素 为 在 某 种 状态 下 执行 某 种 动作 的 价值 函数 值 。 算 法 运行 时 迭代 更 新 这 
个 数组 中 的 每 个 元 素 , 直 到 收敛 。 


204.2 Q >J 


О 27 А Д Р Sarsa 算法 ,不 同 的 是 估计 动作 价值 函数 的 最 大 值 ,通过 迭代 可 以 
直接 找到 价值 函数 的 极 值 , 从 而 确定 最 优 策略 ,类 似 于 价值 迭代 算法 的 思想 。 
算法 的 流程 如 下 。 


初始 化 ,将 所 有 非 终止 状态 的 Q(s,a) 初 始 化 为 任意 值 ,终止 状态 的 初始 化 为 0 
循环 ,对 所 有 的 片段 
选择 一 个 初始 状态 У 
循环 ,对 于 片段 中 的 每 一 步 
根据 Q 函数 为 状态 确定 一 个 动作 a ,可 以 采用 e 贪 心 策略 
执行 动作 w ,得 到 立即 回报 尺 以 及 下 一 个 状态 
更 新 价值 函数 
О‹з.а) = QG.a) +a(R + Y тах, (5 а) — О(з.а)) 
进入 新 状态 : s= s 
直到 s 为 终止 状态 
结束 循环 
实现 时 需要 根据 当前 的 动作 价值 函数 的 估计 值 为 每 个 状态 选择 一 个 动作 来 执行 ,这 里 
有 3 种 方案 : 第 1 种 方案 是 随机 选择 一 个 动作 ,这 称 为 探索 (Exploration) ;第 2 种 方案 是 根 
据 当前 的 动作 函数 值 选择 一 个 价值 最 大 的 动作 执行 : 


а = max;Q(s.a') 
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这 称 为 利用 (Exploitation) 。 第 3 种 方案 是 前 两 者 的 结合 , 即 es- 贪心 策略 。 以 1 一 e 的 概率 
执行 最 优 动作 ,以 s 的 概率 执行 其 他 动作 。 执 行 完 动 作 之 后 ,进入 状态 ,然后 寻找 状态 > 
下 所 有 动作 的 价值 函数 的 极 大 值 构造 更 新 项 。 算法 最 终 会 收敛 到 动作 价值 函数 的 最 优 值 。 
用 于 预测 时 ,在 每 个 状态 下 选择 函数 值 最 大 的 动作 执行 ,这 就 是 最 优 策略 ,具体 实现 时 同样 
可 以 采用 e- 贪 心 策略 。 





20.5 深度 强化 学 习 


前 面 介绍 的 强化 学 习 算法 (如 Q 学 习 ) 只 能 用 于 状态 和 动作 集合 是 离散 的 有 限 集 且 状 
态 和 动作 数量 较 少 的 情况 ,状态 和 动作 需要 人 工 设 计 ,Q 函数 值 存 储 在 一 个 二 维 表格 中 。 实 
际 应 用 中 的 场景 一 般 很 复杂 ,很 难 定义 出 离散 的 状态 ;即使 能 够 定义 ,数量 也 非常 大 ,无 法 用 
数组 存储 。 这 些 实际 应 用 问题 的 输入 数据 是 高 维 的 (如 图 像 .声音 ) ,强化 学 习 算 法 要 根据 它 
们 选择 一 个 动作 执行 。 例 如 ,对 于 自动 驾驶 算法 ,要 根据 当前 的 画面 决定 汽车 的 动作 。Q 学 
习 需 要 列举 出 所 有 可 能 的 情况 ,然后 进行 迭代 。 对 于 高 维 的 输入 数据 ,显然 是 不 现实 的 ,如 
果 直 接 以 原始 数据 作为 状态 , 维 数 太 高 ,导致 状态 数量 太 多 。 

一 种 解决 方案 是 从 高 维 数据 中 抽象 出 特征 ,作为 状态 ,然后 用 强化 学 习 建 模 ,但 这 种 做 
法 很 大 程度 上 依赖 于 人 工 特征 的 设计 ,如 从 画面 中 提取 出 目标 的 位 置 . 速 度 等 信息 非常 困 
难 , 且 通用 性 差 。 

用 函数 来 拟 合 价值 函数 或 策略 函数 是 第 二 种 解决 方案 ,函数 的 输入 是 原始 的 状态 数据 ， 
输出 是 价值 函数 值 或 策略 函数 值 。 在 有 监督 学 习 中 ,我们 用 神经 网 络 来 拟 合 分 类 或 回归 函 
数 , 同 样 ,也 可 以 用 神经 网 络 可 来 拟 合 强化 学 习 中 的 价值 函数 和 策略 函数 ,这 就 是 深度 强化 
学 习 的 基本 思想 , 它 是 深度 学 习 与 强化 学 习 相 结 合 的 产物 。 

将 神经 网 络 与 强化 学 习 进 行 结合 并 不 是 一 个 新 的 想法 , 早 在 1995 年 就 有 人 进行 了 学 
iX, 文献 [24] 提 出 了 TD-gammon 算法 ,用 强化 学 习 实现 西洋 双 陆 棋 , 取 得 了 比 人 类 选手 更 
好 的 成 绩 。 这 种 方法 采用 了 与 Q 学 习 类 似 的 策略 ,用 多 层 感知 器 模型 逼近 状态 价值 函数 (V 
函数 )。 然 而 ,后 来 将 这 种 算法 用 于 国际 象棋 、 围 棋 \、 西 洋 跳 棋 时 ,效果 非常 差 。 这 使 得 人 们 
认为 TD-gammon 算法 只 是 一 个 特例 ,不 具有 通用 性 。 

此 后 的 研究 表明 ,将 Q 学 习 这 样 的 无 模型 强化 学 习 算法 与 非 线 性 价值 函数 逼近 结合 
用 时 ,会 导致 训练 时 Q 本 数 无 法 收敛 到 极 大 值 。 相 比 之 下 .用 线性 函数 来 通 近 价值 函数 ,会 
有 更 好 的 收敛 性 。 文 献 [25] 对 收敛 性 问题 进行 了 详细 的 分 析 与 证 明 。 

深度 学 习 出 现 并 取得 成 功 之 后 ,将 深度 神经 网 络 用 于 强化 学 习 是 一 个 很 自然 的 想法 。 
深度 神经 网 络 能 够 实现 端 到 端的 学 习 , 直 接 从 图 像 、 声 音 等 高 维 数据 中 学 习 有 用 的 特征 , 比 
人 工 设 计 的 特征 更 为 强大 和 通用 。 在 文献 [26] 中 , 受 限 玻 尔 兹 曼 机 被 用 于 表示 价值 函数 ;在 
文献 [27] 中 , 受 限 玻 尔 兹 曼 机 被 用 于 表示 策略 函数 。 神 经 网 络 用 于 Q 学 习 时 不 收敛 的 问题 
被 gradient temporal-difference 算法 部 分 解决 。 用 非 线 性 函数 来 学 习 一 个 固定 的 策略 时 ,这 
些 方 法 的 收敛 性 是 可 以 得 到 保证 的 ,相关 的 分 析 可 以 阅读 文献 [34]。 用 线性 函数 来 近似 价 
值 函 数 ,采用 Q 学 习 训 练 ,收敛 性 也 可 以 得 到 保证 .文献 [36] 对 此 有 详细 的 分 析 与 论证 。 

文献 [22] 提 出 了 Neural Fitted Q-learning(NFQ) 算 法 ,使 用 神经 网 络 作为 Q 函数 的 通 
近 。NFQ 优化 Q 学 习 的 目标 函数 .采用 RPROP 算法 更 新 Q 网 络 的 参数 。 训 练 时 采用 了 
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批量 梯度 下 降 法 进行 更 新 迭代 ,因此 , 单 次 迭代 的 计算 量 太 大 。 这 种 方法 需要 反复 对 神经 网 
络 进 行 从 头 开始 的 上 百 次 迭代 ,不 适合 训练 大 规模 的 神经 网 络 , 效 率 太 低 。 

МЕО 也 被 用 于 现实 世界 中 的 控制 任务 29 ,以 自动 编码 器 作为 提取 特征 的 网 络 , 直 接 接 
收视 觉 输入 信号 ,然后 将 NFQ 算 法 作用 于 提取 出 的 特征 表示 。 文 献 [29] 将 Q 学 习 与 经 验 
回放 机 制 进 行 整合 ,采用 简单 的 神经 作为 逼近 器 。 这 里 还 是 用 低 维 的 状态 向 量 作为 神经 网 
络 的 输入 ,而 不 是 高 维 的 图 像 等 原始 数据 。 


20.5.1 深度 Q 网 络 


在 Q 学习 中 用 表格 存储 Q 函数 的 值 ,如 果 状 态 和 动作 太 多 ,这 个 表 将 非常 大 ,在 某 些 应 
用 中 也 无 法 列举 出 所 有 的 状态 形成 有 限 的 状态 集合 。 解 决 这 个 问题 的 方法 是 用 一 个 函数 来 
近似 价值 函数 ,深度 Q 学 习 用 神经 网 络 来 近似 动作 价值 函数 。 网 络 的 输入 是 状态 ,输出 是 
各 种 动作 的 价值 函数 值 。 例 如 ,算法 要 实现 自动 驾驶 ,将 当前 场景 的 图 像 作为 状态 ,神经 网 
络 的 输入 是 这 种 图 像 , 输 出 是 每 个 动作 对 应 的 Q 函数 值 ,这 里 的 动作 是 左 转 、 右 转 、 谭 车 、 踩 
油门 等 。 显 然 , 神 经 网 络 输 出 层 的 尺寸 与 动作 数 相等 。 

在 计算 机 视觉 .语音 识别 领域 ,深度 神经 网 络 可 以 直接 从 场景 数据 (如 图 像 , 声 音 ) 中 提 
取出 高 层 特征 ,实现 端 到 端的 学 习 , 无 须 再 人 工 设计 特征 。 一 个 自然 的 想法 是 能 否 用 深度 学 
习 来 为 强化 学 习 的 原始 输入 数据 进行 建 模 。 用 深度 神经 网 络 近似 Q 函数 时 ,网 络 的 输入 值 
为 状态 数据 ,如 原始 的 游戏 画面 ,输出 值 为 在 当前 状态 下 执行 各 种 动作 所 得 到 的 最 大 Q PR 
数值 。 但 是 将 深度 学 习 用 于 强化 学 习 将 面临 几 个 挑战 。 

(1) 深度 学 习 需 要 大 量 有 标签 的 训练 样本 ,而 在 强化 学 习 中 ,算法 要 根据 标量 回报 值 进 
行 学 习 , 这 个 回报 值 往往 是 稀疏 的 , 即 不 是 执行 每 个 动作 都 立刻 能 得 到 回报 。 例 如 ,对 于 打 
乒乓 球 这 样 的 游戏 ,只 有 当 自 己 或 者 对 手 失 球 时 得 分 才 会 变化 ,此 时 才 有 回报 ,其 他 时 刻 没 
有 回报 。 回 报 值 带 有 噪声 ,另外 还 具有 延迟 ,当前 时 刻 的 动作 所 得 到 的 回报 在 未 来 才能 得 到 
体现 。 在 下 棋 时 ,当前 所 走 的 一 步 的 结果 会 延迟 一 段 时 间 后 才能 得 到 体现 。 

(2) 有 监督 学 习 一 般 要 求 训练 样本 之 间 是 相互 独立 的 ,在 强化 学 习 中 ,经 常 遇 到 的 是 前 
后 高 度 相关 的 状态 序列 。 在 某 个 状态 下 执行 一 个 动作 之 后 进入 下 一 个 状态 ,前 后 两 个 状态 
之 间 存 在 着 明显 的 概率 关系 ,不 是 独立 的 。 

(3) 在 强化 学 习 中 , 随 着 学 习 到 新 的 动作 ,样本 数据 的 概率 分 布 会 发 生变 化 ,而 在 深度 
学 习 中 ,要 求 训练 样本 的 概率 分 布 是 固定 的 。 

在 文献 [4] 中 ,DeepMind 公司 提出 了 一 种 用 深度 神经 网 络 打 Atari 游戏 的 方法 , 仅 通过 
观察 游戏 画面 和 得 分 ,就 可 以 学 会 打 这 种 游戏 。 该 方法 使 用 深度 卷 积 神经 网 络 拟 合 Q Ра 
数 , 称 为 深度 Q 网 络 (DQN) , 它 是 第 一 个 成 功 的 具有 通用 性 的 深度 强化 学 习 算法 。 网 络 的 
输入 为 经 过 处 理 后 的 若干 帧 游戏 图 像 画 面 ,输出 为 在 这 种 状态 下 执行 各 种 动作 的 Q 函数 
值 。 原 始 的 游戏 画面 是 210 像素 X160 像素 的 彩色 图 像 ,如 果 将 每 个 像素 的 值 变换 为 0 一 255 
的 整数 ,所 有 可 能 的 状态 数 为 
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这 个 规模 的 矩阵 无 法 直接 用 表格 存储 ,因此 使 用 卷 积 神经 网 络 对 Q 函数 进行 逼近 。 网 
络 的 输出 值 是 在 输入 状态 下 执行 每 个 动作 的 Q 函数 值 , 在 这 里 有 18 个 值 , 代 表 游 戏 中 的 18 
种 动作 。 卷 积 神经 网 络 用 于 近似 最 优 О 函数 : 


y 
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Q(s.a.00 ~ О, (s.a) 


其 中 ,9 是 网 络 的 参数 。 文 献 [3] 的 网 络 结构 如 图 20. 6 所 示 。 
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В 20.6 DON 的 网 络 结构 (来 自 文献 [3]) 


这 个 卷 积 网 络 有 2 个 卷 积 层 ,2 个 全 连接 层 。 网 络 的 结构 和 输出 值 与 之 前 介绍 的 卷 积 
神经 网 络 相 比 并 没有 特殊 之 处 ,关键 问题 是 训练 样本 的 获取 与 目标 函数 的 设计 。 在 这 里 并 
没有 将 动作 作为 神经 网 络 的 输入 ,而 是 在 输出 层 同 时 输出 所 有 动作 的 Q 函数 值 , 这 样 可 以 
提高 计算 效率 。 这 里 的 目标 是 允 近 最 优 策略 的 Q 函数 值 ,因此 ,可 以 采用 Q 学 习 的 做 法 。 
损失 函数 用 神经 网 络 的 输出 值 与 Q 学 习 每 次 迭代 时 的 更 新 值 构 造 , 定 义 为 

L(0) = ECR + У max; (5 sa’ ,0) — Q(s.a ,0)))2) 

在 这 里 采用 了 欧 氏 距离 损失 ,是 神经 网 络 的 输出 值 与 Q 函数 估计 值 之 间 的 误差 ,与 Q 
学 习 中 的 更 新 项 相同 。 另 一 个 问题 是 如 何 得 到 训练 样本 ,与 Q 学习 类 似 ,可 以 通过 执行 动 
作 来 生成 样本 。 实 现时 ,用 当前 的 神经 网 络 进行 预测 ,得 到 所 有 动作 的 价值 函数 ,然后 按照 
策略 选择 一 个 动作 执行 ,得 到 下 一 个 状态 以 及 回报 值 ,以 此 作为 训练 样本 。 

DQN 的 一 个 创新 是 使 用 了 经 验 回 放 (Experience Replay) 机 制 , 以 解决 训练 样本 之 间 存 
在 相关 性 ,训练 样本 的 概率 分 布 不 固定 的 问题 。 神 经 网 络 要 求 训练 样本 之 间 相 互 独立 ,而 
Atari 游戏 的 训练 样本 前 后 具有 相关 性 。 解 决 这 个 问题 的 做 法 是 使 用 经 验 池 , 先 将 样本 存储 
在 一 个 集合 中 ,训练 神经 网 络 时 从 中 随机 采样 得 到 每 次 迭代 所 用 的 训练 样本 ,以 打破 按照 动 
作 序 列 执行 时 前 后 两 个 时 间 步 样本 之 间 的 依赖 关系 ,实验 结果 证 明 这 一 方法 的 有 效 性 。 
DQN 训练 算法 的 流程 如 下 : 


初始 化 回放 经 验 池 中 ,其 容量 为 N 
用 随机 权重 初始 化 神经 网 络 ,得 到 初始 的 Q 函数 
循环 ,对 片段 1,2,…,M 
初始 化 序列 5 二 {zi} epi =pl) 
循环 ,对 1 二 1,2,….T 
用 神经 网 络 对 输入 值 进行 预测 ,得 到 每 个 动作 的 价值 函数 
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以 概率 es 随机 选择 一 个 动作 ua ,否则 选择 a, = тах," ($(s,),a;0) 
用 模拟 器 执行 动作 a,, 得 到 回报 r, PAR х, 
ЖЖ жы 5p 0G оха X piti SECs) 
HE br sar ote de А] BSR D P 
从 经 验 池 D 中 随机 采样 m 个 训练 样本 ($j; заз rj 541) 
a E ji = [77° $j+1 为 终止 状态 
аяна A dia AERE S 
计算 损失 函数 ,用 梯度 下 降 法 更 新 神经 网 络 的 参数 Ө 
结束 循环 
结束 循环 


其 中 ,多 是 对 游戏 画面 进行 预 处 理 的 函数 ,实现 时 使 用 了 最 近 4 帧 的 游戏 画面 。 预 测 时 根据 
输入 图 像 计算 各 个 动作 的 Q 函数 值 , 然 后 用 e- 贪 心 策略 决定 要 执行 的 动作 。 

在 实验 中 ,对 Atari 中 的 7 种 游戏 进行 了 测试 ,需要 强调 的 是 使 用 完全 相同 的 算法 , 没 
有 做 网 络 结构 和 学 习 算 法 的 调整 。 最 后 的 结果 是 ,在 6 个 游戏 中 超越 了 之 前 最 好 的 算法 ,并 
HE 3 个 游戏 上 的 表现 超越 了 人 类 专家 。 实 验 结果 证 明 DQN 的 收敛 性 ,文献 [4] 对 此 进行 
了 细致 的 分 析 。 分 析 的 指标 是 游戏 得 分 值 和 Q 函数 值 , 随 着 和 迭代 的 进行 ,二 者 会 升 高 ,这 一 
结果 如 图 20.7 所 示 。 
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В 20.7 DON 的 收敛 性 分 析 ( 来 自 文献 [4]) 


DQN 实现 了 端 到 端 学 习 , 无 须 人 工 提取 状态 和 特征 ,整合 了 深度 学 习 和 强化 学 习 , 深 度 
学 习 用 于 感知 任务 ,可 以 解决 复杂 环境 下 的 决策 问题 。 这 种 方法 具有 通用 性 ,可 以 用 于 各 种 
不 同 的 问题 。 

文献 [3] 对 РОМ 进行 了 改进 ,除了 使 用 经 验 回 放 机 制 之 外 ,还 提出 了 固定 Q 函数 的 策 
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略 ,使 用 另外 一 个 Q 网 络 ( 称 为 目标 Q 网 络 ) 来 计算 训练 时 的 目标 函数 值 ,目标 Q 网 络 周期 
性 地 与 Q 网 络 进行 同步 。 在 DQN 中 ,每 次 迭代 时 Q 值 与 Q 学 习 的 目标 值 > 十 y max, Qs’, 
a ) 之 间 存 在 相关 性 ,因为 它们 用 同一 个 Q 网 络 预测 产生 。 文 献 [3] 通 过 引入 目标 Q 网 络 ， 
消除 了 这 种 相关 性 ,每 次 计算 训练 样本 的 目标 值 时 采用 另外 一 个 网 络 (目标 Q 网 络 ) ,有效 
地 解决 了 这 种 问题 。 

此 后 DQN 出 现 了 大 量 改 进 算法 G*s9 ,这 些 改进 包括 系统 整体 结构 .训练 样本 的 构造 、 
神经 网 络 结构 等 方面 。 文 献 [30] 提 出 Double DQN(DDQN) 算 法 。DDQN 中 有 两 组 不 同 的 
参数 ,9 和 6- 。6 用 于 选择 对 应 最 大 Q 值 的 动作 ,6- 用 于 评估 最 优 动作 的 Q 值 。 这 两 组 参 
数 将 动作 选择 和 策略 评估 分 离 ,降低 了 过 高 估计 Q 值 的 风险 。DDQN 使 用 当前 值 网 络 的 参 
数 6 选择 最 优 动作 ,用 目标 值 网 络 的 参数 6- 评估 该 最 优 动作 。 实 验 结果 证 明 ,DDQN 能 更 
准确 地 估计 Q 函数 值 , 使 得 训练 算法 和 训练 得 到 的 策略 更 为 稳定 。 

文献 [31] 提 出 了 基于 优先 级 采样 的 DQN, 是 对 经 验 回放 机 制 的 改进 。 在 之 前 的 DQN 
中 ,经 验 回放 通过 经 验 池 中 的 样本 等 概率 随机 抽样 来 获得 每 次 迭代 时 的 训练 样本 。 显 然 , 这 
没有 利用 每 个 样本 的 重要 性 。 文 献 [31] 的 方法 为 经 验 池 中 的 每 个 样本 计算 优先 级 , 增 大 有 
价值 的 训练 样本 在 采样 时 的 概率 。 样 本 的 优先 级 用 时 序 差分 算法 的 误差 项 进行 构造 ,计算 
公式 为 

r+ ymax,Q(s a’ 36; ) — Q(s.a30;) 

这 个 值 的 绝对 值 越 大 ,样本 在 采样 时 的 概率 越 大 。 实 验 结果 证 明 这 种 算法 有 更 快 的 训 
练 速度 ,并 且 在 运行 时 有 更 好 的 效果 。 

文献 L32] 提 出 基于 竞争 架构 的 DQN。 其 主要 改进 是 将 CNN 卷 积 层 之 后 的 全 连接 层 
替换 为 两 个 分 支 ,其 中 一 个 分 支 拟 合 状态 价值 函数 ,另外 一 个 分 支 拟 合 动作 优势 函数 。 最 后 
将 两 个 分 支 的 输出 值 相 加 ,形成 Q 函数 值 。 实 验 表明 ,这 种 改进 能 够 更 准确 地 估计 价值 函 
数值 。 

DQN 中 的 深度 神经 网 络 是 卷 积 神经 网 络 , 不 具有 长 时 间 的 记忆 能 力 。 为 此 ,文献 [33] 
提出 了 一 种 整合 循环 神经 网 络 RNN 的 DQN 算法 (DRQN)。 这 种 方法 在 CNN 的 卷 积 层 之 
后 加 入 循环 层 (LSTM 单元 ) ,能 够 记 住 之 前 的 信息 ,对 于 有 些 任务 具有 更 好 的 效果 。 


20.5.2 策略 梯度 算法 


DQN 基于 动作 价值 函数 , 它 用 神经 网 络 拟 合 Q 函数 的 最 优 值 ,通过 函数 值 间接 得 到 最 
优 策略 。 如 果 动 作 集 合 是 连续 的 或 维 数 很 高 ,这 种 方法 将 面临 问题 。 例 如 ,算法 要 控制 机 器 
ЛЖ ax My 方向 上 移动 ,每 个 方向 上 的 移动 距离 是 一 1.0 一 十 1.0 实数 ,移动 距离 无 法 穷 举 
出 来 离散 化 的 动作 集合 ,因此 ,无 法 使 用 基于 价值 函数 的 方法 。 此 时 可 以 让 神经 网 络 根据 输 
入 的 状态 直接 输出 x 和 y 方向 的 移动 距离 ,从 而 解决 连续 性 动作 问题 。 

策略 梯度 (Policy Gradient) 算 法 四 是 这 种 思想 的 典型 代表 ,策略 函数 网 络 的 输入 是 图 
像 之 类 的 原始 数据 。 策 略 函数 根据 这 个 输入 状态 直接 预测 出 要 执行 的 动作 : 

а = п(5;0) 
其 中 ,6 是 神经 网 络 的 参数 。 对 于 随机 性 策略 ,神经 网 络 的 输出 是 执行 每 种 动作 的 概率 值 ， 
x(a | 556) = pla | s;0) 
这 是 一 种 更 为 端 到 端的 方法 ,神经 网 络 的 映射 定义 了 在 给 定 状态 的 条 件 下 执行 每 种 动 
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作 的 概率 ,根据 这 些 概率 值 进行 采样 可 以 得 到 要 执行 的 动作 。 对 于 离散 的 动作 ,神经 网 络 的 
输出 层 神经 元 数量 等 于 动作 数 ,输出 值 为 执行 每 个 动作 的 概率 。 对 于 连续 型 动作 ,神经 网 络 
的 输出 值 为 高 斯 分 布 的 均值 和 方差 ,动作 服从 此 分 布 。 

这 里 的 关键 问题 是 构造 训练 样本 和 优化 目标 函数 ,在 这 两 个 问题 解决 之 后 剩 下 的 就 是 
标准 的 神经 网 络 训练 过 程 。 在 样本 生成 问题 上 .策略 梯度 算法 采用 的 做 法 和 DQN 类 似 ,用 
神经 网 络 当 前 的 参数 对 输入 状态 进行 预测 ,根据 网 络 的 输出 结果 确定 出 要 执行 的 动作 , 接 下 
来 执行 这 个 动作 ,得 到 训练 样本 ,并 根据 反馈 结果 调整 网 络 的 参数 。 如 果 最 后 导致 负面 的 回 
报 , 则 更 新 网 络 的 参数 使 得 在 面临 这 种 输入 时 执行 此 动作 的 概率 降低 ;否则 加 大 这 个 动作 的 
执行 概率 。 策 略 梯度 算法 在 优化 目标 上 和 深度 Q 学 习 不 同 ,深度 Q@ 学 习 是 逼近 最 优 策略 的 
Q 函数 ,而 策略 梯度 算法 是 通过 最 大 化 回报 而 台 近 最 优 策略 。 

有 3 种 典型 的 目标 函数 。 第 一 种 称 为 Start Value, 它 要 求 有 起 始 状 态 , 并 且 能 得 到 完 
整 的 片段 , 即 在 有 限 步 之 后 能 到 达 终 止 状态 。 根 据 当 前 的 策略 函数 执行 动作 可 以 得 到 一 个 
完整 的 片段 ,然后 计算 这 个 片段 的 累计 回报 值 : 

L(0) = Elro + te + rr | ze) 

这 里 将 策略 函数 简写 为 re ,表示 Ө 是 它 的 参数 , 接 下 来 会 采用 这 种 写法 。 

第 二 种 称 为 Average Value, 它 针对 没有 起 始 状 态 的 问题 。 此 时 可 以 计算 状态 价值 函数 
的 数学 期 望 : 

L(0) = ЭПО 6) 


其 中 ,p(s) 是 状态 s 出 现 的 概率 , 它 受 策略 函数 的 影响 。 
第 三 种 称 为 Average Reward Per Time-Step( 即 单 步 平均 回报 ) ,这 是 每 执行 一 个 动作 
的 立即 回报 的 均值 , 即 在 各 种 状态 时 ,执行 各 种 动作 的 回报 的 概率 平均 : 
LO) = p(s) 91a G«ai(DRG-a) 


其 中 ,R(s,a) 为 在 状态 s 时 执行 动作 a 后 的 立即 回报 值 。 确 定 了 目标 函数 之 后 ,不断 地 执行 
动作 来 构造 训练 样本 。 如 果 策 略 函数 可 导 , 则 可 以 根据 样本 计算 目标 函数 的 梯度 值 ,用 梯度 
上 升 法 (因为 要 求 目标 函数 的 极 大 值 ,因此 要 将 梯度 下 降 改 为 梯度 上 升 ) 更 新 策略 函数 的 参 
数 。 这 样 问题 的 关键 就 变 成 了 如 何 计算 目标 函数 对 策略 参数 的 梯度 值 。 
下 面 先 计算 第 3 种 目标 函数 的 梯度 : 
VoL (0)= V, 9 1p (s) >)re(a | 5)Ё(з.а) 


= Уро >) Vorela | s)R(s,a) 


= = MO aua | у Veteta | 9 ge, шу 


Tela | s) 
= Dp Mala | s) Velnze(a | s)R(s,a) 
= E(CVelnze(a | s)R(s.a)) 
接 下 来 看 第 一 种 目标 函数 ,有 起 始 状态 和 完整 片段 的 情况 。 假 设 按照 策略 x 执行 得 到 
了 一 个 片段 ,在 这 里 称 为 轨迹 r, 它 由 各 个 时 刻 的 状态 和 执行 的 动作 构成 : 


т = (з›,ао»5у 91 9 °** э$т- sGT-1 sST ) 
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这 条 轨迹 最 终 得 到 的 回报 为 R(r)。 轨 迹 出 现 的 概率 为 
b(t) = p(so)z(ao | sosO PCs | so sace z Gama | srisO) pr | sra sar? 
对 此 概率 取 对 数 ,可 以 得 到 
T T-1 
Inp(z) = InpCs) + Dlnps, | 51524;42 + > Inz(a, 1550) 
t=1 ї=0 
上 式 中 前 面 两 项 和 6 无 关 , 因 此 它 的 梯度 为 0。 优 化 的 目标 是 最 大 化 轨迹 回报 的 数学 期 望 ; 
1 
ERG) = >) pe RG) 
i=1 
对 数学 期 望 求 梯度 ,可 以 得 到 
WE.(RGO) = У) Vo( R(x) p(z)) 


= >)(CRCr) Vep (7)) 


_ 9) 
= У (воро $c 


= У) (RG) p(z) Volnp(r)) 





= E, (R(x) v, Sine (a, |s:0)) 
此 时 已 经 没有 了 рО) PCs, | sci ai PIC PE EL H RI РА ЖО K m SAR AS HE 
可 以 证 明 ,前 面 定 义 的 3 种 目标 函数 梯度 计算 公式 有 相同 的 形式 。 策 略 梯度 定理 指出 ， 
对 于 一 个 可 导 的 策略 函数 re ,无 论 采 用 前 面 定义 的 哪 种 目标 函数 ,策略 的 梯度 都 为 下 面 的 
形式 : 
VeL (0) = E, (Q, (s.a) Velnz(s.a;0)) 
定理 的 证 明 利用 了 下 面 的 等 式 : 


Ver(s.a;0)= z(s.a50) Ver (s.a 0) 


z(s.a50) 
= nz s.a30) Velnz (s.a 50) 

这 个 定理 为 计算 策略 函数 的 梯度 提供 了 依据 。 

策略 函数 的 构造 对 离散 型 动作 和 连续 型 动作 有 不 同 的 处 理 。 对 于 离散 型 动作 ,策略 函 
数 给 出 的 是 执行 每 个 动作 的 概率 .所 有 动作 的 概率 之 和 为 1。 这 可 以 看 作 多 分 类 问题 ,根据 
输入 的 状态 确定 要 执行 的 动作 的 类 型 ,因此 ,采用 softmax 输出 是 一 个 自然 的 选择 。 此 时 的 
神经 网 络 本 质 上 是 一 个 用 于 多 分 类 任务 的 网 络 。 

对 于 连续 型 动作 ,无 法 将 所 有 的 动作 列举 出 来 ,输出 执行 每 个 动作 的 概率 值 ,只 能 得 到 
动作 的 概率 密度 函数 。 在 运行 时 ,动作 参数 根据 概率 分 布 采样 得 到 , 即 生成 服从 此 分 布 的 一 
个 随机 数 作为 最 后 的 动作 参数 。 无 论 采 用 哪 种 做 法 ,在 确定 了 损失 函数 之 后 ,都 可 以 用 神经 
网 络 的 标准 训练 算法 对 网 络 进行 训练 。 
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20.6 应 用 


强化 学 习 被 广泛 地 应 用 于 策略 与 控制 类 问题 。 典 型 的 代表 是 策略 类 游戏 05025 、 机 器 
人 控制 509 自动 驾驶 系统 07 和 9 、 人 机 对 话 c ,视觉 导航 。 深 度 学 习 与 强化 学 习 的 结合 
极 大 地 拓宽 了 强化 学 习 的 实际 应 用 领域 ,可 以 对 复杂 的 状态 和 动作 进行 建 模 ,使 得 强化 学 习 
真正 走向 实用 ,使 得 深度 强化 学 习 成 为 实现 通用 人 工 智能 的 有 力 工具 。 
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本 部 分 介绍 机 器 学 习 算法 在 应 用 时 的 工程 实践 问题 。 这 对 正确 地 使 用 、 实 
现 机 器 学 习 算 法 至 关 重 要 。 首先 讲述 工程 实现 时 的 细节 ， 包 括 样本 与 标注 问 
题 、 数 据 与 处 理 、 特 征 工程 、 模 型 的 选择 等 问题 。 其 次 讲解 安全 性 问题 ,核心 
是 对 抗 样本 问题 。 最 后 讲解 效率 问题 ， 包 括 计算 效率 与 存储 效率 ， 以 及 深度 神 
经 网 络 的 压缩 与 优化 技术 。 
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本 章 介绍 机 器 学 习 实 际 应 用 时 的 工程 问题 与 面临 的 挑战 。 实 现 细节 对 于 算法 的 精度 和 
运行 速度 至 关 重要 ,包括 训练 样本 的 制作 、 数 据 预 处 理 、 模 型 的 选择 与 参数 的 设 定 等 。 对 抗 
样本 问题 为 机 器 学 习 算法 的 安全 性 带 来 了 挑战 ,在 21. 2 节 中 将 详细 介绍 这 一 问题 。 深 度 神 
经 网 络 虽 然 在 很 多 问题 上 取得 了 很 好 的 精度 ,但 面临 计算 成 本 、 存 储 成 本 过 高 的 问题 ,对 此 
有 一 些 优 化 的 方案 ,将 在 21.4 节 中 介绍 几 种 经 典 的 方法 。 


21.1 实现 细节 问题 


2111 训练 样本 


训练 样本 与 标注 对 算法 和 模型 的 精度 至 关 重 要 。 对 于 分 类 问题 ,为 了 让 算法 学 习 得 充 
分 ,减轻 过 拟 合 ,训练 样本 不 仅 要 保证 数量 ,而 且 样本 的 选取 应 该 尽量 具有 代表 性 ,能 够 覆盖 
所 有 的 情况 。 例 如 ,对 于 人 脸 检测 问题 .不仅 要 有 正面 人 脸 , 还 有 侧面 和 其 他 角度 的 人 脸 。 
过 拟 合 是 有 监督 的 机 器 学 习 算 法 在 应 用 时 需要 面临 的 问题 ,对 训练 样本 进行 优化 可 以 部 分 
解决 过 拟 合 问题 。 

对 训练 样本 的 优化 包括 增加 样本 的 数量 和 代表 性 。 这 可 以 通过 采集 更 多 的 训练 样本 以 
及 对 样本 进行 增 广 得 到 。 前 者 在 很 多 时 候 会 受 现实 条 件 和 成 本 因素 的 限制 ,无 法 采集 到 太 
多 的 样本 。 后 者 通过 对 已 有 样本 进行 处 理 , 得 到 更 多 的 样本 。 例 如 ,对 图 像 进 行 平移 、 旋 转 、 
缩放 、 翻 转 、 调 整 对 比 度 和 加 噪声 等 操作 的 生成 更 多 的 样本 图 像 。 

样本 的 标注 对 算法 的 精度 至 关 重 要 。 错 误 的 标注 会 导致 算法 训练 的 模型 精度 低 。 对 于 
PEAR .声音 类 样本 ,样本 的 对 齐 也 是 需要 考虑 的 问题 。 例 如 ,对 于 人 脸 识 别 问题 所 有 样本 要 
尽量 进行 关键 点 的 对 齐 ; 对 于 字符 识别 ,也 要 求 所 有 字符 在 训练 样本 图 像 中 的 相对 位 置 
一 致 。 

在 实际 应 用 时 会 遇 到 各 个 类 的 训练 样本 不 均衡 的 问题 ,如 有 些 类 的 样本 非常 多 ,而 有 些 
类 的 样本 数 非 常 少 。 如 果 直 接 用 这 些 样本 训练 .最 后 得 到 的 模型 可 能 会 偏向 于 训练 样本 数 
多 的 类 。 这 个 问题 有 如 下 几 种 解决 方法 。 

对 数量 少 的 样本 进行 增 广 ,增加 样本 数 。 或 者 采用 抽样 的 方法 从 各 个 类 抽取 数量 大 致 
相等 的 样本 。 

为 损失 函数 加 上 类 权重 ,样本 数 少 的 类 权重 大 ,样本 数 大 的 类 权重 小 。 贝 叶 斯 分 类 器 、 
决策 树 、 支 持 向 量 机 、AdaBoost 算法 、 神 经 网 络 等 都 支持 为 类 或 者 样本 设置 权重 值 。 
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21.1.2 ”特征 预 处 理 


如 果 特 征 向 量 各 分 量 的 取 值 范围 相差 很 大 ,会 影响 算法 的 精度 ,导致 值 小 的 特征 被 值 大 
的 特征 淹没 ,在 计算 时 也 可 能 会 导致 浮 点 数 的 溢出 。 例 如 ,身高 特征 的 范围 是 1. 0 一 2. 4m. 
体重 特征 的 范围 是 35 一 100kg, 则 身高 特征 可 能 会 被 体重 特征 淹没 。 有 些 模型 使 用 了 指数 
函数 、 对 数 函 数 、 多 次 乘积 ,过 大 或 过 小 的 输入 数据 可 能 会 导致 浮 点 数 溢出 。 

处 理 这 一 问题 的 手段 是 数据 归 一 化 ,下 面 介绍 常用 的 方案 。 第 一 种 方案 是 将 所 有 特征 
分 量 缩放 到 某 一 范围 内 ,如 0 一 1: 


х = 
Tmax — Tmin 


其 中 ,zamn 是 特征 的 最 小 值 ;zmx 是 特征 的 最 大 值 ;z АЕ R fs B TE (Ë ; =” YA — fk Jes B3 RE 
值 。 第 二 种 方案 是 用 方差 和 均值 进行 归 一 化 : 


, = 
z= 


с 
其 中 ,x 是 特征 的 均值 ;o 是 方差 。 这 种 方法 不 保证 归 一 化 到 [0,1] 范 围 内 。 第 三 种 方案 将 
特征 向 量 归 一 化 到 单位 长 度 , 将 特征 向 量 的 每 个 分 量 除 以 向 量 的 模 : 


= T 
Tx T 


如 果 特 征 向 量 的 维 数 过 高 ,不仅 计算 量 大 ,还 会 影响 算法 的 精度 ,此 时 需要 对 数据 进行 
降 维 ,把 向 量变 换 到 更 低 维 的 空间 中 之 后 再 做 处 理 , 第 7 章 介 绍 的 各 种 数据 降 维 算 法 可 以 完 
成 这 一 任务 。 


21.1.3 ”模型 选择 


对 于 一 个 应 用 问题 ,一 般 存在 多 种 算法 可 作为 候选 方案 ,具体 应 该 选用 哪 种 算法 ”对 于 
某 些 被 广 为 研 究 的 通用 问题 ,如 人 脸 识别 .语音 识别 ,有 大 量 的 方法 可 供 参考 。 对 于 某 些 特 
定 的 应 用 问题 ,需要 根据 问题 的 特点 ,需求 来 确定 使 用 什么 算法 。 总 体 来 说 需要 考虑 精度 ， 
计算 成 本 等 多 种 因素 。 

对 于 精度 ,没有 免费 午餐 定理 CI] (No Free Lunch Theorem) 指 出 ,没有 一 种 算法 能 在 所 
有 的 数据 集 上 表现 最 优 。 但 这 只 是 一 个 理论 的 结果 ,实际 应 用 时 ,每 个 问题 的 数据 都 有 自己 
的 特点 ,因此 一 般 选用 精度 高 的 算法 。 考 虑 到 计算 成 本 等 问题 ,有 些 时 候 人 们 会 在 精度 上 做 
出 牺牲 ,选择 精度 满足 要 求 , 但 计算 成 本 低 的 算法 。 一 般 来 说 ,在 同等 性 能 前 提 下 ,人 们 倾向 
于 选择 简单 的 模型 (Occam 剃刀 原理 ) ,简单 的 模型 更 不 容易 产生 过 拟 合 。 


21.1.4 过 拟 合 问题 


过 拟 合 是 所 有 有 监督 学 习 算 法 实际 使 用 时 需要 面 对 的 问题 。 通 过 加 入 惩罚 项 迫使 训练 
得 到 的 模型 更 简单 ,从 而 减轻 算法 对 噪声 的 拟 合 能 力 。 对 复杂 模型 的 惩罚 有 多 种 手段 , 例 
如 ,决策 树 的 剪 枝 ,神经 网 络 训练 中 的 Dropout 机 制 都 是 正则 化 的 具体 实现 。 提 前 终止 9 
(Early Stopping) 也 是 机 器 学 习 训练 时 采用 的 一 种 减轻 过 拟 合 的 手段 , 它 在 训练 时 对 测试 集 
进行 测试 ,统计 准确 率 ,如 果 精 度 开 始 下 降 , 则 提前 停止 迁 代 。 对 深度 学 习 泛 化 性 能 的 分 析 
可 以 阅读 文献 [27] 和 [28] 。 
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在 生成 对 抗 网 络 中 , 随 着 训练 的 进行 ,判别 模型 最 后 无 法 正确 区 分 真实 样本 和 生成 器 生 
成 的 样本 。 这 促使 我 们 思考 一 个 类 似 的 问题 如 果 在 真实 图 像 上 做 细微 的 修改 ,判别 模型 
能 对 它 正 确 地 进行 分 类 吗 ? 对 于 深度 神经 网 络 和 其 他 机 器 学 习 算 法 ,都 可 以 通过 将 一 个 输 
入 样本 x 进行 细微 调整 ,得 到 一 个 人 无 法 察觉 到 变化 的 样本 a, 分 类 器 会 对 a 做 出 错误 的 预 
测 结 果 。 在 这 里 ,a 称 为 对 抗 样本 。 


21.2.1 对 抗 样本 


文献 [1 研究 了 神经 网 络 对 输入 图 像 随机 扰动 的 鲁 棒 性 并 发 现 了 对 抗 样本 问题 的 存在 。 
文献 [1] 提 出 了 两 个 与 安全 性 有 关 的 问题 。 

(1) 神经 网 络 学 习 到 的 映射 函数 高 度 不 连续 。 即 使 是 对 输入 图 像 进行 很 细微 的 、 人 无 
法 察觉 的 非 随机 扰动 ,也 可 导致 图 像 被 以 很 高 的 置信 度 错 分 类 。 

(2) 同样 一 个 随机 扰动 样本 不 仅 在 一 个 模型 上 会 被 错误 分 类 ,而 且 在 其 他 神经 网 络 模 
型 上 也 会 被 错 分 。 

文献 [1] 的 实验 结果 证 明 ,即使 是 对 图 像 进行 细微 的 非 随机 扰动 ,也 可 导致 图 像 被 以 很 
高 的 置信 度 错 分 类 。 因 此 得 出 结论 : 神经 网 络 拟 合 出 来 的 目标 函数 不 连续 。 数 学 上 对 函数 
连续 性 的 定义 是 给 自 变量 一 个 小 的 扰动 Ax, 有 

| f(x + Ax) — flr) | < à 
其 中 ,6 为 一 个 很 小 的 正 数 , 即 自 变量 小 的 变化 导致 函数 值 变 化 也 很 小 。 如 果 对 自 变量 加 上 
小 的 扰动 导致 函数 值 的 变化 很 大 . 则 函数 不 连续 , 即 存在 间断 点 。 

从 数学 上 来 看 ,神经 网 络 的 所 有 计算 步骤 都 使 用 了 连续 函数 ,它们 的 复合 函数 还 是 连续 
函数 ,因此 拟 合 出 的 函数 一 定 是 连续 函数 ,这 与 实验 结果 矛盾 。 但 是 由 于 输入 数据 维 数 很 高 
而 导致 的 数值 计算 累计 效应 因素 的 存在 ,即使 是 输入 数据 小 幅度 的 扰动 ,也 可 能 会 导致 最 终 
的 输出 数据 出 现 大 的 波动 ,这 在 后 面 会 进行 解释 。 

神经 网 络 拟 合 出 的 目标 函数 不 连续 是 非常 危险 的 ,可 能 会 被 人 利用 进行 攻击 。 如 果 用 
于 人 脸 识 别 , 人 为 地 改变 样本 会 导致 错误 的 分 类 结果 ,而 这 种 错误 会 被 利用 ;垃圾 邮件 发 送 
者 可 以 通过 构造 对 抗 样本 来 欺骗 过 滤 邮 件 用 的 分 类 器 。 

文献 [1] 分 析 了 神经 网 络 的 整体 特性 ,这 通过 分 析 网 络 所 表示 的 映射 函数 来 实现 。 假 设 
神经 网 络 的 映射 函数 为 


21.2 安全 性 问题 


f. Вт (1.2, 4] 
即将 一 个 输入 向 量 如 图 像 映射 成 一 个 类 别 号 。 假 设 训练 时 使 用 了 一 个 连续 的 损失 函数 , 它 
和 映射 函数 相关 : 
R"X (1,2,--,k) > Rt 
在 神经 网 络 训 练 完 成 之 后 .给 定 一 个 样本 图 像 x, 给 定 一 个 目标 类 别 标签 LOK EU TF t 
优化 问题 : 
min || r ||; 


J(x+r)= 1 


M 
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x-cr€ [0.1]" 
在 这 里 是 一 个 扰动 向 量 , 用 它 对 图 像 进行 一 个 尽 可 能 小 的 扰动 ,使 得 加 入 扰动 之 后 的 
新 图 像 被 神经 网 络 判别 为 第 工 类 ,如 果 这 个 类 别 不 是 样本 的 类 别 ,这 意味 着 新 图 像 被 神经 
网 络 误 判 为 其 他 类 别 。 通 过 这 种 方法 可 以 找到 我 们 想 要 的 对 抗 样本 。 图 21.2 是 用 这 种 方 
法 找到 的 扰动 图 像 。 








图 21.1 对 抗 样本 图 像 (来 自 文献 [1]) 


实验 结果 还 证 明 ,在 一 个 网 络 上 寻找 到 的 这 种 对 抗 样本 在 其 他 网 络 上 也 是 有 效 的 , 即 具 
有 迁移 特性 。 这 种 迁移 性 是 非常 危险 的 ,因为 攻击 者 可 以 在 自己 的 模型 上 找到 对 抗 样本 ,用 
于 其 他 模型 ,即使 他 不 知道 其 他 模型 的 数据 。 

文献 [2] 得 出 了 与 文献 [1] 类 似 的 结论 。 作 者 提出 了 另外 一 种 方法 ,用 来 对 输入 图 像 进 
行 调整 形成 新 的 图 像 ,而 这 两 张 图 像 的 差异 是 人 类 无 法 感知 到 的 ,但 是 神经 网 络 会 给 出 不 同 
的 分 类 结果 。 

这 种 生成 新 图 像 的 方法 基于 遗传 算法 或 梯度 下 降 法 。 对 于 一 个 已 经 训练 好 的 卷 积 神经 
网 络 , 用 这 两 种 算法 对 一 张 图 像 进行 调整 ,最 后 使 得 卷 积 网 络 以 很 高 的 置信 度 把 这 张 图 像 判 
定 为 某 个 指定 的 类 别 。 作 者 在 ImageNet 和 MNIST 数据 集 上 对 这 种 方法 进行 了 验证 。 另 
外 还 发 现在 MNIST 数据 集 上 用 生成 的 欺骗 样本 对 神经 网 络 进行 重新 训练 ,还 是 不 能 解决 
神经 网 络 容易 被 欺骗 的 问题 ,因为 即使 是 用 欺骗 样本 进行 重新 训练 ,还 是 能 找到 新 的 欺骗 样 
本 让 神经 网 络 错误 地 分 类 。 

遗传 算法 是 求解 函数 极 值 的 一 种 随机 算法 ,从 大 自然 的 适 者 生存 启发 而 设计 ,其 核心 思 
想 是 随机 交叉 和 变异 。 假 设 有 一 个 要 优化 的 目标 函数 : 

min f(x) 

给 定 一 批 初始 可 行 解 x; ,首先 计算 每 个 x; 的 函数 值 。 然 后 随机 选取 两 个 变量 x, FA x; 
进行 交叉 。 最 后 对 交叉 结果 进行 变异 。 算 法 会 将 目标 函数 值 小 的 变量 遗传 下 去 ,最 后 得 到 
最 优 解 。 

在 生成 欺骗 样本 时 .对 一 些 图 像 进行 选择 .然后 随机 杂交 ,将 适应 函数 (Fitness 
Function) 值 高 的 图 像 保留 下 来 。 反 复 进行 这 种 迭代 ,最 后 得 到 结果 图 像 。 在 这 里 适应 函数 
就 是 神经 网 络 的 预测 函数 。 
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前 面 的 结论 只 是 证 明了 对 抗 样本 的 存在 ,并 提出 人 工 生成 对 抗 样本 的 方法 ,但 并 没有 分 
析 其 存在 的 原因 。 文 献 [3] 分 析 了 对 抗 样本 产生 的 原因 。 首 先 分 析 线 性 模型 的 对 抗 样本 形 
成 原因 ,然后 推广 到 更 复杂 的 非 线性 模型 (如 神经 网 络 ) 。 

假设 有 一 个 样本 向 量 x, 加 上 扰动 之 后 得 到 对 抗 输 入 xX 二 x 十 7], 为 了 限制 扰动 值 的 大 小 ， 
限定 了 下 面 不 等 式 约束 : 

Па 1. <e 
其 中 ,e 是 一 个 很 小 的 正 数 。 正 常情 况 下 线性 模型 应 该 能 对 x 进行 正确 地 分 类 。 线 性 模型 的 
映射 为 
w x= wi x+ w 

扰动 造成 的 函数 值 变化 为 wne PLANER ,在 满足 上 面 不 等 式 约束 条 件 的 情况 下 ,使 得 

函数 变化 值 最 大 化 的 扰动 值 为 
n = єз п (w) 

如 果 维 数 很 高 ,对 输入 数据 微小 的 扰动 就 会 导致 输出 值 改变 很 大 ,这 种 改变 量 足以 影响 
分 类 结果 。 因 此 得 出 结论 : 如 果 线 性 模型 的 维 数 很 高 ,会 出 现 对 抗 样本 问题 。 

作者 进一步 指出 ,使 用 ReLU 等 激活 函数 的 网 络 由 于 激活 函数 的 线性 或 者 近似 线性 ， 
从 而 也 容易 出 现 对 抗 样本 问题 。 使 用 sigmoid 激活 函数 的 神经 网 络 如果 激 活 函数 值 大 部 分 
都 落 在 不 饱和 区 间 ( 不 饱和 区 间 的 函数 近似 线性 ) ,也 会 出 现 类 似 的 问题 。 

假设 神经 网 络 的 参数 为 9, 输 入 样本 为 x. 样 本 的 标签 值 为 y, 神 经 网 络 训 练 时 的 损失 函 
数 为 L(9,x,y)。 在 网 络 参数 的 当前 值 9 处 ,对 损失 函数 进行 线性 近似 ,可 以 得 到 满足 最 大 
范 数 约束 的 扰动 值 为 

9 — esgn(V 4L (0.x.y)) 

通过 这 种 方式 可 以 生成 对 抗 样本 ,梯度 值 可 以 在 反 向 传播 过 程 中 得 到 。 实 验 发 现 ,通过 
这 种 方法 生成 的 样本 导致 大 量 的 神经 网 络 模型 出 现 错 分 类 。 

前 面 讲述 的 对 抗 样本 都 是 通过 特定 的 算法 精心 构造 的 ,如 果 随 机 对 图 像 做 一 个 微小 的 
扰动 ,一 般 来 说 并 不 会 导致 它 被 神经 网 络 错 分 类 。 因 此 ,需要 考虑 一 个 问题 : 对 抗 样本 的 数 
量 有 多 少 ? 文献 [4] 分 析 了 对 抗 样本 的 空间 ,得 出 的 结论 是 对 抗 样本 在 整个 样本 空间 中 所 占 
的 比例 并 不 小 。 下 面 先 介绍 该 文献 提出 的 寻找 对 抗 样本 的 方法 。 如 果 分 类 器 实现 的 映射 为 

p= f(X) 
其 中 ,XX 为 输入 图 像 ;p 为 样本 属于 每 一 类 的 概率 值 向 量 。 如 果 概 率 最 大 的 值 为 p; , 则 将 样 
本 的 标签 值 设 为 h。 

假设 样本 正确 的 标签 值 为 ,初始 时 =, 通过 为 输入 图 像 加 上 一 个 扰动 值 也 ,使 得 样 

本 被 错误 分 类 ,这 需要 求解 如 下 最 优化 问题 : 
minp || D || 
L<x+D<uU 
p = fA +D) 
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EpL A U 分别 为 图 像 像 素 值 的 下 限 和 上 限 。 最 后 一 个 不 等 式 约束 相当 于 产生 错 分 类 。 
求解 上 面 的 最 优化 问题 可 以 寻找 出 不 止 一 张 对 抗 样本 图 像 。 通 过 在 MNIST 和 ImageNet 
数据 集 上 的 实验 ,作者 发 现 对 抗 样本 大 量 存 在 。 关 于 机 器 学 习 算法 安全 性 以 及 对 抗 样本 问 
题 的 更 多 讨论 ,可 以 阅读 文献 [5-8]。 


21.3 实现 成 本 问题 


深度 学 习 技术 为 了 解决 机 器 视觉 .语音 识别 .自然 语言 处 理 等 复杂 问题 ,使 用 了 规模 越 
来 越 大 的 网 络 结构 ,虽然 带 来 精度 上 的 提升 ,但 也 导致 模型 越 来 越 复杂 。 复 杂 的 模型 不 仅 带 
来 存储 空间 的 开销 ,还 带 来 计算 量 的 增加 ; 另 一 方面 ,为 了 训练 复杂 的 网 络 需 要 越 来 越 多 的 
标注 样本 ,为 样本 采集 和 标注 工作 带 来 沉重 的 负担 。 


21.3.1 训练 样本 量 


为 避免 过 拟 合 问题 ,深度 神经 网 络 需要 大 量 训练 样本 以 保证 模型 的 精度 。 对 于 图 像 . 语 
音 之 类 的 数据 ,样本 的 收集 和 标注 是 一 个 高 成 本 的 事情 ,需要 耗费 大 量 的 人 力 和 物力 。 如 何 
降低 样本 的 标注 量 是 实际 应 用 时 需要 面临 的 一 个 问题 。 

除了 人 工 标注 训练 样本 之 外 ,还 有 其 他 手段 能 够 解决 此 问题 。 文 献 L10] 提 出 一 种 称 为 
对 偶 学 习 的 方法 解决 机 器 翻译 的 训练 样本 问题 。 在 第 16 章 中 介绍 过 ,机 器 翻译 的 训练 样本 
为 两 种 语言 对 应 的 语句 对 。 这 种 任务 是 具有 对 偶 性 的 ,可 以 将 A 语言 的 语句 翻译 成 B 语 
言 ,然后 再 从 也 语言 翻译 回 A 语言 。 基 于 这 一 思想 ,可 以 从 两 个 不 准确 的 翻译 模型 开始 训 
练 ,得 到 高 精度 的 翻译 模型 。 

小 样本 的 深度 学 习 技 术 是 当前 的 一 个 有 价值 的 方向 , 它 研究 如 何 用 有 限 的 样本 训练 出 
高 精度 的 深度 学 习 模 型 。 这 里 使 用 的 手段 有 迁移 学 习 、 数 据 增 广 技术 ,以 及 One-Shot 学 
习 中 技术 。 迁 移 学 习 使 用 其 他 问题 上 的 训练 样本 训练 模型 ,再 用 本 问题 上 的 少量 样本 进行 
调 优 ,在 第 15 章 中 采用 了 这 种 做 法 。 

另外 ,如 果 有 大 量 未 标注 但 已 经 采集 的 样本 ,可 以 考虑 使 用 半 监 督学 习 算法 ,这 在 第 19 
章 中 已 经 介绍 。 


213.2 计算 与 存储 成 本 


深度 神经 网 络 的 模型 需要 占用 大 量 的 存储 空间 ,网络 传输 时 也 会 耗费 大 量 的 带宽 和 时 
间 , 这 限制 了 在 移动 设备 、 智 能 终端 上 的 应 用 。 以 Caffe 为 例 ,AlexNet 网 络 的 模型 文件 超 
过 200MB. VGG 网 络 则 超过 500MB, 这 样 的 模型 文件 是 不 适合 集成 到 App 安装 包 中 的 。 
因此 需要 对 模型 进行 压缩 ,在 21.4 节 中 将 介绍 解决 这 一 问题 的 典型 方法 。 

复杂 的 模型 不 仅 带 来 存储 空间 的 问题 .还 有 计算 量 的 增加 。 和 运行 在 服务 端的 模型 可 以 
通过 GPU、 分 布 式 等 并 行 计 算 技 术 进 行 加 速 ,运行 在 移动 端 和 嵌入 式 系统 中 的 模型 由 于 成 
本 等 因素 的 限制 ,除了 采用 并 行 计 算 等 进行 加 速 之 外 ,还 需要 对 算法 和 模型 本 身 进 行 裁剪 或 
者 优化 以 加 快速 度 。 在 21.4 节 中 ,将 详细 介绍 加 快 网 络 运行 速度 的 方法 。 
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21.4 深度 模型 优化 


减少 存储 空间 和 计算 量 的 一 种 方法 是 对 神经 网 络 的 模型 进行 压缩 。 有 多 种 实现 手段 ， 
包括 剪 枝 与 编码 53504229 、 二 值 化 网 络 、. 卷 积 核 分 离 等 , 接 下 来 分 别 介绍 。 
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文献 [19] 提 出 一 种 卷 积 神经 网 络 模型 压缩 方法 。 在 不 影响 精度 的 前 提 下 ,能 够 将 
AlexNet 网 络 模型 的 参数 减少 到 1/9,VGG-16 网 络 模 型 的 参数 减少 到 1/13。 其 做 法 是 先 
按照 正常 的 流程 训练 神经 网 络 , 然 后 去 掉 小 于 指定 阔 值 的 权重 ,最 后 对 剪 枝 后 的 模型 进行 重 
新 训练 ,反复 执行 上 面 的 过 程 直 到 完成 模型 的 压缩 。 

更 进一步 ,文献 [13] 提 出 一 种 称 为 Deep Compression 的 深度 模型 压缩 技术 ,通过 剪 枝 、 
量化 和 哈 夫 曼 编码 对 模型 进行 压缩 ,而 且 不 会 影响 网 络 的 精度 。 整 个 方法 分 为 3 步 ,第 1 步 
对 模型 进行 剪 枝 , 只 保留 一 些 重 要 的 连接 。 第 2 步 通过 权 值 量化 来 共享 一 些 权 值 。 第 3 步 
通过 哈 夫 曼 编码 来 进一步 压缩 数据 。 

网 络 剪 枝 采 用 了 和 文献 [19] 相 同 的 方法 。 首 先 按照 正常 的 步骤 训练 神经 网 络 , 然 后 对 
小 权重 代表 的 连接 进行 剪 枝 , 即 将 权重 绝对 值 小 于 某 一 阔 值 的 连接 删除 掉 ,最 后 对 删除 连接 
之 后 的 网 络 进行 重新 训练 。 

下 面 用 一 个 简单 的 例子 介绍 权重 剪 枝 的 原理 。 假 设 有 如 下 权重 矩阵 : 


0. 001 — 0.2 0.6 0. 0003 
— 0. 0001 0.63 0.0001 —0.7 

0.0001 一 0.21 — 0.00002 0. 00001 

0. 00001 0.0 0.2 0. 00001 


如 果 以 0. 002 28 B (EDGE 3X FS BOBO PEE GT EUIS (6. T 1493 F 11898 (8 (e Bi P 3c — 
Л ЖШПЕН: 
[? —0.2 0.6 0 


0 0.63 0 087 
0 — 0.21 0 0 
0 0 0.2 0 





经 过 剪 枝 的 权重 矩阵 大 部 分 元 素 为 0, 因 此 需要 用 合适 的 方式 进行 存储 。 对 稀疏 矩阵 
的 存储 有 多 种 成 熟 的 解决 方案 ,这 里 使 用 了 压缩 的 稀 玻 行 (CSR) 或 压缩 的 稀 朴 列 (CSC) 格 
式 存 储 。 如 果 非 0 元 素 的 个 数 为 a., 行 或 者 列 的 尺寸 为 n, 这 种 存储 使 用 24a 十 n 十 1 个 数 。 对 
F EJ 6 LAB IAE. ШЖ ЖИ CSR 编码 ,其 结果 为 
[79.2 0.6 0.63 —0.7 —0.21 0.21 
1 3 5 6 7 * 
| 2 3 2 4 2 3 | 
第 一 行为 所 有 非 0 元 素 ,数量 是 6:58 ТУЕ ВИТ AE 0 元 素 在 第 一 行 中 
的 位 置 ,最 后 一 个 数 是 非 0 元 素数 加 1, 在 这 里 是 7; 第 三 行 是 每 一 个 非 0 元 素 所 在 的 列 。 
为 了 进一步 压缩 ,在 这 里 存储 每 个 非 0 元 素 和 上 一 个 非 0 元 素 的 位 置 的 差 值 ,而 不 是 存 
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储 每 个 非 0 元 素 的 绝对 位 置 。 对 于 卷 积 层 , 这 个 位 置 差 值 用 8 位 进行 编码 ;对 于 全 连接 层 ， 
采用 5 位 进行 编码 。 

进行 剪 枝 之 后 , 接 下 来 是 量化 编码 和 权重 共享 ,其 目的 是 让 多 个 权 值 共享 一 个 值 。 量 化 
编码 通过 对 权重 值 进行 聚 类 实现 ,在 这 里 采用 -均值 算法 。 通 过 聚 类 ,将 权重 划分 为 个 
类 ,每 个 类 有 一 个 中 心 值 。 对 于 属于 这 个 组 的 权重 值 ,用 类 中 心 值 进行 替代 。 这 样 每 个 非 0 
权重 值 只 需要 存储 属于 哪个 类 即 ( 类 编号 )。 如 果 有 上 个 类 ,只 需要 logsk 位 就 可 以 存储 类 编 
号 值 。 

上 均值 算法 通过 优化 所 有 样本 到 类 中 心 的 距离 平方 和 来 确定 类 中 心 : 

arg min, У) > |w — e, |? 


i=l w€ç, 


其 中 ,ec; 为 类 中 心 ;w 为 样本 向 量 值 。 类 中 心 的 初始 化 是 一 个 需要 考虑 的 问题 ,在 这 里 有 3 
种 策略 。 第 一 种 方法 是 随机 初始 化 , 即 从 原始 数据 中 随机 产生 & 个 值 作为 类 中 心 。 第 二 种 
方式 是 密度 分 布 初始 化 ,对 累计 概率 密度 的 y 值 均匀 划分 ,然后 根据 每 个 划分 点 у 值 找到 
累计 概率 密度 曲线 的 交点 ,以 交点 的 工 坐 标 作为 初始 类 中 心 。 第 三 种 方法 是 线性 初始 化 ， 
将 权重 值 的 最 小 值 到 最 大 值 的 区 间 进 行 均匀 划分 ,以 这 个 划分 作为 初始 类 中 心 。 实 验证 明 
线性 划分 具有 更 好 的 效果 。 

对 于 上 面 例子 中 闽 值 化 后 的 权重 矩阵 ,如 果 将 其 非 0 元 素 聚 类 成 4 个 类 , 则 只 需要 为 每 
个 元 素 存储 类 编号 ,得 到 如 下 编码 矩阵: 


* 一 0.2 0.6 * * 1 3 + 
* 0.63 * —0.7 х 3 * 0 
* 一 0.21 + * id * I * * 
x x 0.2 x x x 2 x 
上 面 左边 的 矩阵 是 阔 值 化 后 的 矩阵 ,右边 的 矩阵 是 每 个 元 素 值 的 类 别 编号 。4 个 类 的 


中 心 为 
[一 0.7 一 0.205 0.2 0.615] 

为 了 进行 反 向 传播 ,对 梯度 和 矩阵 也 进行 这 种 量化 编码 和 共享 。 训 练 时 ,每 次 迭代 只 需要 
将 权重 矩阵 减 掉 学 习 因 子 和 梯度 矩阵 的 乘积 即 可 。 

最 后 一 步 是 对 权重 进行 哈 夫 曼 编码 。 哈 夫 曼 编码 是 一 种 前 绥 编 码 技术 , 它 对 数据 频率 
进行 统计 ,给 频率 高 的 数据 更 短 的 编码 ,并且 保 证 其 中 任何 一 个 编码 不 能 是 另外 一 个 编码 的 
DE 

在 不 损失 模型 精度 的 前 提 下 ,模型 压缩 算法 能 将 AlexNet 网 络 压缩 为 1/35, 模 型 从 
240MB 减 小 到 6. 9MB; 将 VGG-16 网 络 压缩 为 1/49, 从 552MB 减 为 11. 3MB。 这 使 得 深度 
卷 积 网 络 在 移动 端的 应 用 成 为 可 能 。 

文献 [18] 提 出 了 一 种 对 卷 积 神经 网 络 的 通道 进行 剪 枝 的 模型 压缩 方法 。 首 先 用 
LASSO 回归 来 选择 出 要 剪 枝 的 通道 ,然后 用 最 小 二 乘法 对 模型 进行 重建 。 在 这 里 不 详细 
介绍 , 感 兴趣 的 读者 可 以 阅读 文献 [18] 。 


2142 ”二 值 化 网 络 
将 网 络 的 权重 由 浮 点 数 转换 为 定点 数 甚至 是 二 值 数据 可 以 大 幅度 地 提高 计算 的 速度 ， 
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减少 模型 的 存储 空间 。 相 比 浮 点 数 的 加 法 和 乘法 运算 ,定点 数 要 快 很 多 ,而 二 值 化 数据 的 运 
算 可 以 直接 用 位 运算 实现 , 带 来 的 加 速 比 更 大 。 

文献 [17] 提 出 一 种 称 为 二 值 神经 网 络 (Binarized Neural Networks, BNN) 的 模型 。 二 
值 神经 网 络 的 权重 值 和 激活 函数 都 是 二 值 化 的 数据 ,这 能 显著 减 小 模型 存储 空间 ,并 且 加 快 
模型 的 计算 速度 。 

BNN 将 网 络 的 权重 和 激活 函数 值 都 限定 为 二 值 ,在 这 里 使 用 十 1 和 一 1。 为 了 将 实数 
值 变 量 转 化 为 这 种 二 值 变量 ,可 以 使 用 两 种 不 同 的 二 值 化 函数 。 第 一 种 二 值 化 函数 定义 为 
+1, x20 
—1, «<0 
这 称 为 确定 性 二 值 化 函数 。 其 中 ,xz 为 实数 变量 ,zx* 为 二 值 化 后 的 变量 值 ,这 就 是 符号 函 
数 。 第 二 种 二 值 化 函数 是 一 个 随机 函数 , 称 为 随机 性 二 值 化 函数 ,定义 为 
+1, pG* = 十 1) = сбх) 

Í 1, pG =—1)= 1— olz) 
Жр, р(а* = +1) AE АЧИ FE z 为 十 1 BY Ж. pCa? = — DOS 2E ntl — (fe — 1 
的 概率 ,这 类 似 于 logistic 回归 的 分 类 函数 。o 为 硬 sigmoid 函数 ,定义 为 

a(x) = max (min £2) 

这 是 一 个 折线 阶 路 函数 。 根 据 硬 sigmoid 函数 的 性 质 . 变 量 的 值 越 大 二 值 化 后 值 为 十 1 
的 概率 就 越 大 。 随 机 性 二 值 化 函数 比 确定 性 二 值 化 函数 更 强大 ,但 实现 起 来 更 困难 ,因为 它 
依赖 于 随机 数 生成 。 因 此 ,实现 时 选择 第 一 个 二 值 化 函数 。 

在 定义 二 值 化 函数 之 后 , 接 下 来 要 做 的 是 在 正 向 传播 和 反 向 传播 时 将 网 络 的 权重 以 及 
激活 函数 值 进行 二 值 化 ,并 在 二 值 化 的 基础 上 构造 正 向 传播 和 反 向 传播 算法 。 虽然 在 训练 
时 用 来 计算 网 络 参数 梯度 值 的 激活 函数 值 .权重 值 都 是 二 值 数据 ,但 是 梯度 值 是 累积 为 实数 
变量 的 。 

由 于 sgn 函数 除 0 点 之 外 导数 都 是 0, 这 导致 根据 它 计 算 的 梯度 值 都 是 0, 反 向 传播 算 
法 将 面临 失效 的 问题 。 因 此 ,需要 为 这 个 函数 设计 一 个 合适 的 导数 计算 公式 。 如 果 sen 二 
值 化 函数 为 


a’ = sgn(x) = | 


z = 











q = sgn(r) 
假设 损失 函数 对 q 的 偏 导数 为 g,, 则 损失 函数 对 > 的 偏 导 数 按照 下 式 计 算 ， 
g, = gall, |< 
其 中 ,1 I| < 的 定义 为 
i oqb dr] <1 
Tees E |r| >1 
B || <1 时 保持 后 一 层 传 过 来 的 导数 值 , 否 则 将 导数 值 置 为 0。 

对 于 隐藏 层 的 所 有 神经 元 ,使 用 sen 函数 来 得 到 二 值 化 的 激活 函数 值 。 正 向 传播 时 , 先 
计算 激活 函数 值 , 然 后 用 二 值 化 函数 进行 二 值 化 。 其 他 的 步骤 和 标准 神经 网 络 相同 。 反 上 向 
传播 时 ,按照 上 面 的 公式 计算 二 值 化 函数 的 梯度 值 , 其 他 的 和 标准 神经 网 络 相同 。 

权重 值 的 计算 分 两 步 。 第 一 步 是 将 实数 的 权重 值 限 定 在 一 1 一 十 1。 如 果 用 梯度 下 降 法 
进行 权重 值 更 新 之 后 落 在 这 个 区 间 之 外 , 则 将 其 截取 到 一 1 或 者 十 1。 第 二 步 将 实数 值 的 权 
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重 进行 二 值 化 : 
u^ = sgn(w') 

通过 上 面 的 操作 ,每 次 反 向 传播 更 新 之 后 权重 值 都 被 限定 为 二 值 化 值 。 根 据 上 面 的 定 
义 , 可 以 得 到 二 值 神经 网 络 的 训练 算法 。 

与 标准 神经 网 络 相 同 ,训练 算法 每 次 迭代 时 分 为 正 向 传播 . 反 向 传播 和 参数 更 新 三 步 。 
第 一 步 是 正 向 传播 ,用 神经 网 络 每 一 层 二 值 化 的 权重 对 样本 进行 预测 。 第 二 步 是 反 向 传播 ， 
计算 参数 的 梯度 值 。 第 三 步 是 累积 参数 的 梯度 值 , 并 对 参数 进行 更 新 。 

文献 [16] 提 出 一 种 称 为 二 值 权 重 网 络 和 XNOR( 同 或 门 ) 网 络 的 模型 ,这 是 对 卷 积 神经 
网 络 的 二 值 化 逼近 ,也 是 对 文献 L17] 方 法 的 进一步 优化 。 

二 值 权 重 网 络 的 权重 矩阵 是 二 值 化 数据 ,输入 数据 是 实数 。XNOR 网 络 的 卷 积 核 GE 
积 层 、 全 连接 层 的 输入 数据 都 是 二 值 化 的 。 在 不 损失 精度 的 前 提 下 ,XNOR 网 络 能 够 把 模 
型 的 存储 空间 压缩 为 1/32 ,速度 提升 58 倍 。 

下 面 先 介绍 二 值 权重 网 络 。 其 目标 是 用 二 值 卷 积 核 BE (01.71) VER — A XT 
0 的 缩放 因子 a 来 近似 实数 卷 积 核 W, 即 

W = aB 
这 样 卷 积 运算 可 以 实现 为 
IxW (Т © В)а 
其 中 ,加 为 没有 乘法 的 卷 积 运算 。 由 于 权重 数组 是 二 值 化 十 1 或 一 1, 因 此 ,可 以 用 加 法 和 减 
法 来 实现 卷 积 运算 。 与 单 精度 浮 点 卷 积 核 相 比 , 二 值 化 卷 积 核 可 以 将 存储 空间 缩小 为 1/32 。 
基于 上 面 的 定义 ,二 值 权重 网 络 可 以 表示 为 (I,B,A. 外 )。 其 中 ,B 为 二 值 张 量 的 集合 ,4 为 
正 实数 的 集合 ,其 元 素 为 上 面 的 缩放 因子 ,I 为 输入 图 像 的 集合 , 即 
Wa ~ А„Вь 

核心 的 问题 是 如 何 得 到 B 和 a。 为 了 表述 简便 ,在 这 里 将 W 和 B 都 看 作 是 维 向 量 ， 

其 中 ==cXwXh。 为 了 寻找 最 优 估计 ,可 以 求解 如 下 最 优化 问题 : 
L(B.a) = | W—aB || ° 
a" ,B* = arg min,. L. (В.а) 

这 是 一 个 很 自然 的 想法 ,因为 我 们 的 目标 是 要 让 W 和 aB 尽 可 能 接近 。 将 上 面 的 目标 

函数 展开 ,有 
L(B.a) = à! B'B — 20W"B+W'W 

H T B 的 元 素 是 一 1 或 十 1, 因 此 必定 有 BTB 二 nn, 这 是 一 个 常数 。 由 于 W 是 已 知 量 , 因 

Jt WW 也 是 一 个 常数 ,假设 其 值 为 c。 目 标 函 数 可 以 简化 为 
L(B.a) = ап – 2aWTB + c 
由 于 а 是 一 个 正 数 ,要 让 上 面 的 目标 函数 最 小 化 .需要 让 WT B 最 大 化 。 这 就 是 求解 如 
下 只 关于 В 的 最 优化 问题 : 
B` = arg maxs (WT B) 
Be q lL 
容易 证 明 其 最 优 解 为 : 如 果 W> 则 В, = 4-1. 0 B; 二 一 1。 最 优 解 可 以 写成 
B* = sgn(W) 
在 确定 B 之 后 , 接 下 来 优化 a, 这 是 一 个 二 次 函数 ,其 导数 为 
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L’ = 2na — 2W" B* 
令 导 数 为 0 可 以 解 得 
« — МТВ“ 
n 





将 B 的 最 优 解 代入 上 式 ,可 以 得 到 
Wrsgn(W) _ У) IWi| 


n 


1 iwi, 
n 








а" 


即 向 量 B 的 1 范 数 的 均值 ,实现 起 来 非常 容易 。 上 面 的 方法 只 解决 了 如 何 根据 实数 卷 积 核 
得 到 二 值 化 卷 积 核 的 问题 , 和 文献 [17] 中 一 样 ,还 需要 解决 网 络 的 训练 问题 。 

在 这 里 训练 卷 积 网 络 的 每 一 次 迭代 同样 包括 3 个 步骤 , 即 正 向 传播 `. 反 向 传播 和 更 新 参 
数 。 为 了 训练 二 值 权重 的 网 络 ,只 在 正 向 传播 和 反 向 传播 时 对 权重 进行 二 值 化 。 由 于 二 值 
化 时 需要 计算 sen(W) ,同样 需要 解决 这 个 函数 求 导 的 问题 ,在 这 里 的 做 法 和 文献 [17] 相 
同 。 参 数 更 新 时 使 用 了 高 精度 的 浮 点 数 。 

假设 训练 样本 为 (I,Y) ,损失 函数 为 L。 网 络 当 前 权重 为 W' ,当前 学 习 率 为 x#y。 算 法 的 
输出 为 更 新 后 的 权重 以 及 学 习 率 。 训 练 算法 流程 如 下 。 

(1) 对 每 一 层 的 权重 进行 二 值 化 ,计算 公式 为 


а= Liwi: 
n 

B = sgn(W) 

W = аВ 


(2) СЕ W 进行 正 向 传播 。 

(3) 用 二 值 化 的 权重 进行 反 向 传播 ,得 到 Vv wL 。 

(4) 用 梯度 下 降 法 更 新 权重 值 , 得 到 Wr"*? 。 

(5) 更 新 学 习 率 ,得 到 у. 

练 完 之 后 就 不 再 需要 保留 实 值 权重 ,因为 在 预测 时 只 使 用 二 值 权重 进行 正 向 传播 ,这 将 
大 量 节省 存储 空间 。 

二 值 权重 网 络 的 权重 是 二 值 数 , 但 输入 数据 还 是 实数 值 。 进 一 步 ,可 以 将 输入 数据 也 变 
成 二 值 数据 ,这 就 是 XNOR 网 络 。XNOR 网 络 的 目标 是 对 输入 图 像 和 权重 矩阵 的 内 积 进 
171811, 

X'W = BH 'aB 
其 中 ,X,WER 是 输入 图 像 和 权重 矩阵 展开 后 得 到 的 向 量 ; 吾 ,BE {十 1, 一 1}” 是 输入 图 像 
和 卷 积 核 的 二 值 化 逼近 ,xc,BER* 。 二 值 化 逼近 通过 求解 如 下 最 优化 问题 来 实现 ， 
a* ,B* ,8 .H^ = arg тіп, врн || XOW — BaH OB || 

т XI YC R" ,其 中 ,Y; 二 XWi;,CE {+1,.—1}".C, =H B;. tet YER* .y—op, ET 

的 目标 函数 可 以 简化 为 
7*.С* = arg minyc || Y УС l 
与 前 面 的 推导 类 似 , 这 个 问题 的 最 优 解 为 
С" = sgn(Y) = sgn(X) Osgn(W) = Н" ОВ" 
HF | Xi |, |W; | 相互 独立 并 且 Y; 二 XWi;, 因 此 有 
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从 而 有 


E[|Y;|1= E[|X:| |w,|1= ЕХ ПЕМ 














Xir RILA ~(2 Ixla) lwia) Bra’ 


接 下 来 可 以 根据 卷 积 核 以 及 待 卷 积 图 像 构造 出 它们 的 卷 积 结果 的 二 值 化 逼近 值 , 从 而 
完成 二 值 化 卷 积 运算 。 假 设 卷 积 核 为 张 量 W, 卷 积 输入 图 像 为 张 量 I。 在 这 里 需要 对 图 像 
中 和 卷 积 核 尺 寸 相同 的 所 有 可 能 子 张 量 ( 即 卷 积 位 置 ) 计 算 缩 放 因 子 8。 显 然 这 存在 元 余 计 
算 , 因 为 两 个 子 张 量 和 之 间 可 能 存在 重 盖 。 为 了 快速 计算 ,可 以 首先 计算 如 下 和 矩阵: 


_ 5 [йы] 


这 是 对 输入 张 量 的 元 素 的 绝对 值 按照 通道 这 个 维度 计算 的 平均 值 。 接 下 来 用 一 个 二 维 
的 滤波 器 上 对 4 进行 卷 积 : 


A 


K=A*k 
对 Vi 有 
EE 
wXh 

卷 积 结果 包含 了 缩放 因子 。 元 素 Kj WT pa BT G ji I fo REA CER f. YE 
得 到 了 权重 的 缩放 因子 a 以 及 输入 图 像 工 的 所 有 子 张 量 的 缩放 因子 8 之 后 ,可 以 按照 下 式 
来 计算 二 值 化 的 卷 积 : 


ky = 


I * W =ç (sgn(ID @ sgn(W)) O Ka. 
其 中 ,@9 为 用 XNOR 和 位 计数 实现 的 卷 积 运算 。XNOR 为 同 或 运算 ,其 规则 为 如 果 两 个 运 
算数 相同 , 则 结果 为 1 ,否则 为 0。 
在 执行 同 或 运算 之 后 ,统计 1 和 0 的 个 数 ,假设 为 n 和 no, 则 卷 积 结果 为 mn по Ж 
用 浮 点 运算 实现 卷 积 ,这 能 极 大 地 加 快速 度 。XNOR 网 络 的 训练 和 二 值 权重 网 络 相 同 ,不 
再 重复 介绍 。 
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单 的 卷 积 核实 现 ( 一 般 是 更 低 维 的 卷 积 核 ) ,用 简单 的 卷 积 核 依 次 对 数据 进行 卷 积 在 效果 上 
等 同 于 标准 的 卷 积 。 

文献 [24] 公 开 了 一 种 称 为 MobileNets 的 网 络 模型 , 它 针 对 移动 端 等 嵌入 式 系统 设计 ， 
通过 卷 积 核 分 解 达到 减少 模型 参数 ,加快 运行 速度 的 目的 。 这 种 方法 基于 深度 可 分 离 的 卷 
积 , 它 将 标准 卷 积 运算 分 解 成 一 个 深度 卷 积 和 一 个 1X1 的 卷 积 。 深 度 卷 积 将 每 个 卷 积 核 作 
用 于 每 个 通道 ,1X1 卷 积 用 来 合并 通道 卷 积 的 输出 。 卷 积 核 分 离 并 不 是 一 种 新 的 技术 ,在 
数字 图 像 处 理 中 ,这 种 技术 就 被 经 常 使 用 ,采用 两 个 一 维 的 卷 积 核 可 以 达到 和 一 个 二 维 的 卷 
积 核 同样 的 效果 ,但 计算 量 更 少 ,前 提 是 二 维 的 卷 积 核 是 可 以 分 离 的 。 

假设 标准 卷 积 运算 的 输入 图 像 为 Dr X Dr х M, 输 出 图 像 为 De X De X NN, 其 中 ,Ds 是 
输入 图 像 的 高 度 和 宽度 ,M 是 输入 图 像 的 通道 数 ,De 是 输出 图 像 的 高 度 和 宽度 ,N 是 输出 
图 像 的 通道 数 。 在 这 里 ,输入 和 输出 图 像 都 是 正方 形 的 。 
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完成 这 个 卷 积 运算 的 标准 卷 积 运算 的 卷 积 核 为 Dx х Dx XMXN ñi sk ht Ок 为 卷 积 核 
的 高 度 和 宽度 ,M 为 卷 积 核 的 通道 数 , N 为 卷 积 核 的 数量 。 假 设 步 长 为 1, 卷 积 运算 的 计算 
公式 为 
Grin = b» K jon ° F,+-—A4+;_i,m 


其 中 ,G 是 卷 积 输出 图 像 ,F 是 卷 积 输入 图 像 ,K 是 卷 积 核 。 标 准 卷 积 的 计算 成 本 为 
Dk X Dx X M X N X Dr X Dr 
卷 积 运算 的 计算 量 由 卷 积 核 的 尺寸 .输入 图 像 的 尺寸 .输入 图 像 的 通道 数 、 输 出 图 像 的 
在 这 里 对 上 面 的 卷 积 运算 进行 分 解 , 拆 分 成 逐 深 度 卷 积 和 逐 点 卷 积 , 依 次 用 它们 进行 卷 
积 。 逐 深度 卷 积 的 卷 积 核 为 Dk X Dx XM 尺寸 ,其 通道 数 等 于 输入 图 像 的 通道 数 。 它 分 别 
作用 于 输入 图 像 的 每 个 通道 ,计算 公式 为 
быш 一 > K... * Fish 


HIH] M + Dg X Dk 的 卷 积 核 分 别 作用 于 输入 图 像 的 每 个 通道 ,不 进行 通道 ж. ЖФК 
卷 积 核 ,C 为 卷 积 输出 图 像 。 这 一 运算 的 成 本 为 
Dx X Dk X MX Dr X Ds 

输出 图 像 为 DeXDecXxM。 接 下 来 ,用 N 个 1X1XM 的 卷 积 核对 上 一 步 的 卷 积 结果 ， 

其 中 , 卷 积 核 的 高 度 和 宽度 都 为 1, 有 M 个 通道 。 显 然 ,这 一 步 的 计算 成 本 为 
D, X DpX MXN 

最 后 得 到 的 图 像 为 De X DeXN。 这 和 标准 卷 积 运算 输出 图 像 的 尺寸 相同 。 如 果 卷 积 
核 为 3X3, 采 用 这 种 分 离 卷 积 的 方案 可 以 将 计算 量 缩减 为 1/8 一 1/9。 

这 个 网 络 所 有 的 卷 积 都 用 这 种 分 离 的 方案 实现 。 为 了 进一步 加 速 计算 ,还 使 用 了 两 个 
超 参数 对 模型 进行 压缩 。 第 一 个 参数 称 为 宽度 乘 子 a, 其 作用 是 减少 图 像 的 通道 数 。 第 二 
个 参数 称 为 分 辨 率 乘 子 o, 其 作用 是 减 小 图 像 的 高 度 和 宽度 。 两 个 参数 的 取 值 都 在 0 一 1, 由 
人 工 设 定 。 更 多 的 深度 模型 压缩 与 优化 技术 可 以 阅读 文献 [12-15] 和 文献 [20-23]。 


参考 文献 


[1] Christian Szegedy. Wojciech Zaremba. Ilya Sutskever.et al. Intriguing properties of neural networks. 
International Conference on Learning Representations, 2014. 

[2] Anh Mai Nguyen.Jason Yosinski.Jeff Clune. Deep neural networks are easily fooled; High confidence 
predictions for unrecognizable images. Computer Vision and Pattern Recognition, 2015. 

3] lan J Goodfellow, Jonathon Shlens. Christian Szegedy. Explaining and Harnessing Adversarial 
Examples. ICLR 2015. 

[4] Pedro Tabaco. Eduardo Valle. Exploring the Space of Adversarial Images. International Joint 
Conference on Neural Network.2016. 

[5] Battista Biggio, Igino Corona. Davide Maiorca.et al. Evasion attacks against machine learning at test 
time. In Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 
2013. 


[6] Dalvi Nilesh. Domingos Pedro. Sanghai Sumit.et al. Adversarial classification. In Proceedings of the 








tenth ACM SIGKDD international conference on Knowledge discovery and data mining.2004. 


564) (MESS 





[8] 


9] 


[10] 


[11] 


[12] 


[13] 


[14] 


[15] 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 





[7] Nicolas Papernot. Patrick D Mcdaniel, Ian J Goodfellow. et al. Practical Black-Box Attacks against 


Deep Learning Systems using Adversarial Examples. arXiv; Cryptography and Security,2016. 
Nicolas Papernot, Patrick D Mcdaniel. Ian J Goodfellow. Transferability in Machine Learning: from 
Phenomena to Black-Box Attacks using Adversarial Samples. arXiv: Cryptography and Security, 
2016. 
Christian Szegedy, Vincent Vanhoucke, Sergey loffe.et al. Rethinking the Inception Architecture for 
Computer Vision, Computer Vision and Pattern Recognition ,2016. 
Yingce Xia, Di He, Tao Qin, et al. Dual Learning for Machine Translation. Neural Information 
Processing Systems, 2016. 
Oriol Vinyals, Charles Blundell, Timothy P Lillicrap, et al. Matching Networks for One Shot 
Learning. Neural Information Processing Systems.2016. 
Xiang Li. Tao Qin. Jian Yang. et al. LightRNN: Memory and Computation-Efficient Recurrent 
Neural Networks. Neural Information Processing Systems,2016. 
Song Han. Huizi Mao. William J Dally. Deep Compression: Compressing Deep Neural Networks 
with Pruning. Trained Quantization and Huffman Coding. International Conference on Learning 
Representations, 2016, 
Hao Li. Asim Kadav, Igor Durdanovic. et al. Pruning Filters for Efficient ConvNets. arXiv: 
Computer Vision and Pattern Recognition, 2016, 
Yi Sun, Xiaogang Wang, Xiaoou Tang. Sparsifying Neural Network Connections for Face 
Recognition, Computer Vision and Pattern Recognition, 2016. 
Mohammad Rastegari, Vicente Ordonez, Joseph Redmon, et al. XNOR-Net; ImageNet Classification 
Using Binary Convolutional Neural Networks. European Conference on Computer Vision,2016. 
Matthieu Courbariaux,Itay Hubara. Daniel Soudry,et al. Binarized Neural Networks: Training Deep 
Neural Networks with Weights and Activations Constrained to +1 or -1. arXiv; Learning.2016. 
Yihui He, Xiangyu Zhang, Jian Sun. Channel Pruning for Accelerating Very Deep Neural Networks, 
2017. 
Han Song, Pool Jeff. Tran John, et al. Learning both weights and connections for efficient neural 
networks, In Advances in Neural Information Processing Systems,2015. 
Denton E L,Zaremba W,Bruna J,et al. Exploiting linear structure within convolutional networks for 
efficient evaluation, In Advances in Neural Information Processing Systems.2014: 1269-1277. 
Jaderberg M. Vedaldi A Zisserman A. Speeding up convolutional neural networks with low rank 
expansions. arXiv; 1405. 3866 .2014. 
Qinyao He. He Wen. Shuchang Zhou. et al. Effective Quantization Methods for Recurrent Neural 
Networks. 2016. 
Shuchang Zhou, Yuxin Wu, Zekun Ni, et al. DoReFa-Net; Training Low Bitwidth Convolutional 
Neural Networks with Low Bitwidth Gradients.2015. 
Andrew G. Howard, Menglong Zhu.et al. MobileNets; Efficient Convolutional Neural Networks for 
Mobile Vision Applications,2017. 
Wolpert.D H. Macready W G. No Free Lunch Theorems for Optimization, IEEE Transactions on 
Evolutionary Computation, 1997. 


] Lutz P. Automatic early stopping using cross validation: quantifying the criteria. Neural Networks. 


1998. 
Kawaguchi K,Kaelbling L P,Bengio. Generalization in deep learning.2017. 
Chiyuan Zhang. Samy B. Moritz Н. et al. Understanding deep learning requires rethinking 


generalization, international conference on learning representations. 2017. 


附录 A 
各 种 机 器 学 习 算 法 的 总 结 


贝 叶 斯 分 类 器 (第 4 章 ) 


核心 : 将 样本 判定 为 后 验 概率 最 大 的 类 。 

贝 叶 斯 分 类 器 直接 用 贝 叶 斯 公式 解决 分 类 问题 ,分 类 的 规则 是 将 样本 归 到 后 验 概率 最 
大 的 那个 类 。 训 练 时 确定 先 验 概率 分 布 (类 条 件 概率 ) 的 参数 ,一 般 用 最 大 似 然 估计 。 贝 叶 
斯 分 类 器 是 一 种 非 线 性 的 生成 模型 ,可 以 处 理 多 分 类 问题 。 


决策 树 ( 第 5 章 ) 


核心 : 一 组 嵌 套 的 判定 规则 。 

决策 树 是 一 组 嵌 套 的 ifelse 判定 规则 ,其 映射 函数 是 分 段 常数 函数 ,对 应 于 用 平行 于 坐 
标 轴 的 平面 对 空间 的 划分 。 决 策 树 的 这 些 规则 通过 训练 样本 学 习 得 到 ,递归 地 创建 树 ,首先 
用 整个 训练 样本 集训 练 根 节点 ,然后 用 分 裂 的 训练 样本 集 分 别 训练 左 子 树 和 右 子 树 。 决 策 
树 是 一 种 非 线性 的 判别 模型 , 既 支持 分 类 问题 ,也 支持 回归 问题 , 它 天 然 地 支持 多 分 类 问题 。 


KNN 算法 (第 6 章 ) 


核心 : 模板 匹配 ,将 样本 判定 为 离 它 最 相似 的 那些 训练 样本 所 属 的 类 。 

KNN 算法 没有 训练 过 程 ,预测 寻找 距离 待 预 测 样本 最 近 的 个 邻居 ,然后 统计 这 些 邻 
居所 属 的 类 ,将 样本 判定 为 训练 样本 数 最 多 的 那个 类 。kNN 算法 是 一 种 非 线 性 的 判别 模 
型 , 既 支 持 分 类 问题 ,也 支持 回归 问题 , 它 天 然 地 支持 多 分 类 问题 。 


主 成 分 分 析 ( 第 7 0 


核心 : 向 重 构 误 差 最 小 的 方向 做 线性 投影 。 
主 成 分 分 析 将 向 量 线性 投影 到 低 维 空间 ,确定 投影 方向 的 依据 是 最 小 化 重 构 误差 。 主 
成 分 分 析 是 一 种 无 监督 学 习 算法 ,是 线性 降 维 算法 。 


局 部 线性 谋 入 (第 7 RE) 


核心 : 用 一 个 样本 点 所 有 邻居 点 的 线性 组 合 近 似 重 构 这 个 样本 ,将 样本 投影 到 低 维 空 
间 中 以 后 依然 保持 这 种 线性 组 合 关 系 。 

局 部 线性 嵌入 将 向 量 投影 到 低 维 空间 中 ,并 保持 数据 点 之 间 的 局 部 线性 关系 。 其 核心 
思想 是 每 个 点 都 可 以 由 与 它 相 邻 的 多 个 点 的 线性 组 合 来 近似 ,投影 到 低 维 空间 之 后 要 保持 
这 种 线性 重 构 关 系 , 即 有 相同 的 重 构 系 数 。 局 部 线性 嵌入 是 一 种 无 监督 学 习 算法 ,是 非 线性 
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降 维 算法 。 
等 距 映 射 (第 7 章 ) 


核心 : 将 样本 投影 到 低 维 空间 之 后 依然 保持 相对 距离 关系 。 

等 距 映 射 使 用 了 测 地 线 和 测 地 距离 的 概念 , 它 将 向 量 投影 到 低 维 空间 之 后 能 够 保持 流 
形 上 的 测 地 线 距 离 。 直 观 来 看 ,就 是 投影 到 低 维 空间 之 后 ,还 要 保持 相对 距离 关系 , 即 投影 
之 前 距离 远 的 点 ,投影 之 后 还 要 远 ; 投 影 之 前 相距 近 的 点 ,投影 之 后 还 要 近 。 等 距 映 射 是 一 
种 无 监督 学 习 算 法 ,是非 线性 降 维 算 法 。 


线性 判别 分 析 ( 第 8 章 ) 


核心 : 向 最 大 化 类 间 差 异 .最 小 化 类 内 差异 的 方向 线性 投影 。 
线性 判别 分 析 是 有 监督 的 线性 降 维 算法 , 它 确保 将 样本 向 量 线性 投影 到 低 维 空间 之 后 ， 
同类 样本 的 差异 尽 可 能 小 ,不 同类 样本 间 的 差异 尽 可 能 大 。 


人 工 神经 网 络 ( 第 9 章 ) 


核心 : 多 层 的 复合 函数 。 

神经 网 络 本 质 上 是 一 个 多 层 的 复合 函数 ,由 激活 函数 保证 其 映射 函数 的 非 线性 。 训 练 
算法 的 核心 是 计算 损失 函数 对 各 层 参 数 的 梯度 值 , 即 反 向 传播 算法 ,此 算法 由 多 元 复合 函数 
求 导 的 链 式 法 则 导出 。 反 向 传播 算法 从 输出 层 开始 , 递 推 地 根据 后 一 层 的 误差 项 计算 本 层 
的 误差 项 ,然后 根据 误差 项 计算 损失 函数 对 本 层 参数 的 梯度 值 ,最 后 用 梯度 下 降 法 进行 参数 
更 新 。 神 经 网 络 是 一 种 非 线 性 的 有 监督 学 习 算法 , 它 既 可 以 用 于 分 类 问题 ,也 可 以 用 于 回归 
问题 ,天 然 地 支持 多 分 类 问题 。 


支持 向 量 机 (第 ТО 章 ) 


核心 : 最 大 化 分 类 间隔 的 线性 分 类 器 (不 考虑 核 函数 )。 

支持 向 量 机 的 目标 是 寻找 一 个 分 类 超 平面 . 它 不 仅 能 正确 地 分 类 所 有 训练 样本 ,并 且 要 
使 得 每 一 类 样本 中 距离 超 平面 最 近 的 样本 到 超 平面 的 距离 尽 可 能 远 。 通 过 使 用 核 函数 , 支 
持 向 量 机 将 向 量 非 线性 地 映射 到 高 维 空间 ,使 得 其 更 可 能 线性 可 分 。 实 现 的 时 候 , 通 过 拉 格 
朗 日 对 偶 转化 为 对 偶 问题 求解 ,采用 了 高 效 的 SMO 算法 ,这 是 一 种 分 治 法 。 支 持 向 量 机 是 
一 种 非 线 性 的 判别 模型 , 它 既 可 以 用 于 分 类 问题 ,也 可 以 用 于 回归 问题 。 


logistic 回归 (第 11 章 ) 


核心 : 从 样本 向 量 预测 出 它 属于 正 负 样本 的 概率 。 

logistic 回归 用 于 二 分 类 问题 , 先 对 向 量 做 线性 映射 ,然后 用 logistic 函数 进行 映射 ,得 
到 它 属于 正 样本 的 概率 。 模 型 的 参数 通过 最 大 似 然 估计 确定 。logistic 回归 是 一 种 线性 的 
判别 模型 , 它 是 分 类 算法 而 不 是 回归 算法 。 


随机 森林 (第 12 章 ) 
核心 : 用 有 放 回 抽样 的 样本 训练 多 棵 决策 树 , 训 练 决策 树 的 每 个 节点 时 只 用 了 随机 抽 
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取 的 部 分 特征 ,预测 时 对 这 些 树 的 预测 结果 进行 投票 。 


随机 森林 是 一 种 集成 学 习 算法 ,由 多 棵 决策 树 组 成 。 这 些 决 策 树 用 从 训练 样本 集 又 放 
回 的 随机 抽样 构造 出 的 样本 集训 练 得 到 。 训 练 决策 树 的 每 个 内 部 节点 时 ,还 对 特征 向 量 的 
分 量 随机 抽样 ,只 使 用 了 部 分 特征 。 预 测 时 ,用 所 有 决策 树 的 预测 结果 进行 投票 ,得 到 最 终 
的 结果 。 随 机 森林 是 一 种 非 线性 判别 模型 , 既 支 持 分 类 问题 ,也 支持 回归 问题 ,并 且 支 持 多 
分 类 问题 。 





AdaBoost 算法 (第 13 章 ) 


核心 : 用 多 课 决策 树 的 加 权 和 进行 预测 ,训练 时 重点 关注 错 分 的 样本 ,准确 率 高 的 弱 分 
类 器 权重 大 。 

AdaBoost 算法 是 一 种 集成 学 习 算法 ,用 多 个 弱 分 类 器 的 线性 加 权 组 合 构造 强 分 类 器 。 
训练 时 ,样本 带 有 权重 值 ,算法 依次 训练 每 个 弱 分 类 器 ,确定 它们 的 权重 。 准 确 率 高 的 弱 分 
类 器 权重 大 ,被 错 分 的 训练 样本 增 大 权重 ,否则 减 小 权重 。 训 练 算法 通过 广义 加 法 模型 和 指 
数 损失 函数 导出 。 标 准 的 AdaBoost 算法 是 一 种 非 线 性 判别 模型 ,只 支持 二 分 类 问题 。 


卷 积 神经 网 络 ( 第 15 章 ) 


核心 : 共享 权重 的 多 层 复合 函数 。 

卷 积 神经 网 络 在 本 质 上 也 是 一 个 多 层 复合 函数 ,与 全 连接 神经 网 络 不 同 的 是 它 的 某 些 
权重 参数 是 共享 的 ,另外 它 还 使 用 了 池 化 层 。 通 过 卷 积 层 和 池 化 层 自动 抽取 图 像 在 各 个 尺 
度 上 的 特征 。 训 练 时 同样 采用 了 反 向 传播 算法 。 卷 积 神经 网 络 是 一 个 非 线 性 判别 模型 , 它 
既 可 以 用 于 分 类 问题 ,也 可 以 用 于 回归 问题 ,并 且 支 持 多 分 类 问题 。 


循环 神经 网 络 (第 16 HE) 


核心 : 综合 了 复合 函数 和 递 推 数列 的 一 个 函数 。 

循环 神经 网 络 是 一 种 具有 记忆 功能 的 神经 网 络 , 用 于 序列 预测 问题 。 每 个 时 刻 的 输出 
值 不 仅 由 当前 时 刻 的 输入 值 确定 ,还 由 上 一 个 时 刻 的 状态 值 决 定 。 它 的 训练 样本 是 一 个 向 
量 序列 ,训练 时 采用 了 BPTT 算法 ,误差 项 沿 着 时 间 轴 反 向 传播 。 循 环 神经 网 络 是 一 个 非 
线性 判别 模型 , 既 支 持 分 类 问题 ,也 支持 回归 问题 ,并 且 支 持 多 分 类 问题 。 


生成 对 抗 网 络 ( 第 17 童 ) 


核心 : 生成 对 抗 网 络 用 于 随机 数据 的 生成 , 它 由 一 个 生成 器 和 一 个 判别 器 组 成 ,训练 时 
二 者 相互 竞争 ,使 得 生成 器 生成 的 数据 和 真实 样本 数据 具有 同样 的 概率 分 布 。 

生成 对 抗 网 络 是 一 种 用 于 生成 随机 数据 的 算法 , 它 由 一 个 生成 器 和 一 个 判别 器 构成 。 
生成 器 负责 生成 随机 数据 ,判别 器 用 于 判断 数据 是 生成 器 生成 的 还 是 真实 样本 。 训 练 时 ,二 
者 相互 竞争 ,生成 器 要 让 生成 的 数据 尽 可 能 和 真实 样本 同 分 布 而 难以 区 分 , 即 让 判别 模型 无 
法 正确 地 鉴别 。 判 别 模型 的 目标 是 尽 可 能 正确 地 鉴别 一 个 数据 是 真实 数据 还 是 生成 器 生成 
的 。 训 练 时 系统 达到 均衡 ,预测 时 ,只 使 用 生成 器 进行 数据 生成 。 


А 
568} ESI SHA 
k 均值 算法 (第 18 章 ) 


核心 : 把 样本 分 配 到 离 它 最 近 的 类 中 心 所 对 应 的 类 ,类 中 心 由 属于 这 个 类 的 所 有 样本 
确定 。 

上 均值 算法 是 一 种 无 监督 算法 ,是 聚 类 算法 。 算 法 将 每 个 样本 分 配 到 离 它 最 近 的 那个 
类 中 心 所 对 应 的 类 ,而 类 中 心 的 确定 又 依赖 于 样本 的 分 配方 案 , 二 者 存在 循环 依赖 。 求 解 
时 , 先 随机 生成 类 中 心 , 然 后 在 每 次 迭代 时 先 将 样本 分 配 到 离 它 最 近 的 类 中 心 , 然 后 根据 这 
个 分 配方 案 更 新 类 中 心 向 量 , 反 复 迭 代 直 至 收敛 。 


EM 算法 (第 18 章 ) 


核心 : EM 算法 用 于 求解 带 有 隐 变 量 的 概率 密度 函数 的 参数 估计 问题。 算法 通过 
Jensen 不 等 式 构造 出 对 数 似 然 函 数 的 一 个 下 界 函 数 ,然后 优化 此 下 界 函 数 得 到 参数 的 估计 
值 , 接 下 来 根据 参数 的 新 估计 值 构 造 新 的 下 界 函 数 ,如 此 反复 ,直至 收敛 到 对 数 似 然 函数 的 
极 值 点 。 

EM 算法 用 于 求解 带 有 隐 变 量 的 概率 密度 函数 的 参数 估计 间 题 ,因为 隐 变 量 的 存在 ,无 
法 直接 求 得 对 数 似 然 函数 极 大 值 的 公式 解 。 算 法 首先 给 出 参数 的 一 个 估计 值 ,然后 通过 
Jensen 不 等 式 根据 它 构造 对 数 似 然 函数 的 下 界 函 数 ,在 参数 的 当前 值 点 处 ,下 界 函 数 的 值 
和 对 数 似 然 函数 的 值 相等 。 然 后 优化 对 数 似 然 函 数 , 求 其 极 大 值 ,得 到 新 的 参数 估计 值 。 接 
下 来 用 新 的 参数 估计 值 构造 新 的 下 界 函 数 ,如 此 交替 ,直至 收敛 到 对 数 似 然 函数 的 极 大 值 
点 处 。 


DBASCAN 算法 (第 18 章 ) 


核心 : DBSCAN 是 一 种 基于 密度 的 聚 类 算法 ,算法 从 样本 分 布 密集 的 核心 点 开始 扩 
展 ,反复 将 样本 密集 的 点 加 入 到 本 簇 ,直到 到 达 簇 的 边界 。 

DBSCAN 算法 将 样本 分 布 密集 的 各 个 区 域 作为 篮 , 从 各 个 种 子 点 开始 ,依次 生成 每 个 
复 。 在 生成 每 个 能 的 过 程 中 ,以 种 子 点 为 起 点 ,这 是 样本 分 布 密集 ( 即 周围 的 邻 域 内 有 大 量 
样本 点 ) 的 点 ,逐步 向 样本 分 布 密 集 的 点 进行 扩张 ,直到 到 达 每 个 簇 的 边界 处 。 不 属于 任何 
一 个 簇 的 点 为 噪声 点 。 


附录 В 


梯度 下 降 法 的 演化 关系 ( 见 第 15 章 ) 
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附录 C 


EM 算法 的 推导 ( 见 第 18 €) 
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图 1.1 用 于 区 分 樱桃 和 猕猴 桃 的 特征 图 1.2 用 直线 将 两 类 水 果 分 开 





图 1.4 识 图 卡 图 1.6 人 脸 检 测 的 结果 
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1.7 判断 图 像 是 否 为 人 脸 的 二 分 类 器 
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缩小 图 像 
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人 脸 矩 形 框 























台 并 结果 














图 1.8 多 尺度 人 脸 检测 原理 





图 2.5 鞍点 示意 图 
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图 4.1 二 维 正 态 分 布 的 概率 密度 函数 





4.2 正 态 贝 叶 斯 分 类 器 的 分 类 结果 





100 200 300 400 
图 5.2 决策 树 对 空间 的 划分 图 5.3 决策 树 








图 5.5 决策 树 的 分 类 结果 图 6.1 大 近邻 分 类 示意 图 








图 6.2 kNN 算法 的 分 类 效果 图 7.1 主 成 分 投影 示意 图 











维 空间 中 的 一 个 流 形 


图 7.2 
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维 空间 后 的 结果 


7.3 用 LLE 算法 将 手写 数字 图 像 投影 到 





(b) 降 维 后 的 结果 


维 数据 进行 降 维 


维 空间 中 的 样本 分 布 


(а) 


图 7.5 拉 普 拉 斯 特征 映射 对 





图 7.6 等 距 映 射 的 投影 结果 











图 8.1 最 佳 投影 方向 





图 8.2 LDA 的 分 类 结果 图 9.4 神经 网 络 对 三 类 问题 的 分 类 效果 











图 10.1 二 维 空间 中 的 线性 分 类 器 














(a) 线性 分 类 器 1 (b) 线性 分 类 器 2 
图 10.2 两 个 不 同 的 线性 分 类 器 
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图 10.3 最 大 化 分 类 间隔 图 10.4 支持 向 量 示意 图 





#3 SVM Toy [IET 











‘lear | Саме | Load HO -c 100. 








ad HO -c 100 Nu = un... 
图 10.5 线性 可 分 的 支持 向 量 机 示意 图 图 10.6 线性 不 可 分 支持 向 量 机 的 一 个 例子 
E SVM Toy Sr) 











| Run) Clear | | toad H2-c 100 








10.7 通过 核 映 射 解决 线性 不 可 分 问题 





12.1 随机 森林 的 分 类 结果 





13.1 AdaBoost 实验 程序 运行 结果 
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15.2 多 通道 卷 积 
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15.22 ”特征 图 像 单元 和 默认 和 矩形 框 的 示意 图 (来 自 文献 L35]) 
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Р 15.25 SegNet 网 络 的 结构 (来 自 文献 L56]) 








图 15.26 边缘 轮廓 检测 结果 (来 自 文献 [60]) 
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18.1 对 水 果 进 行 层次 聚 类 的 结果 




















19.1 半 监 督 支持 向 量 机 示意 图 























动作 
回报 
环境 感知 
图 20.1 智能 体 和 环境 交互 20.5 用 蒙特 卡 洛 算法 计算 圆 的 面积 
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图 20.6 ром 的 网 络 结构 (来 自 文献 [3]) 


